天风证券表示,文生视频是一个年轻的方向,该领域面临多方面的挑战,包括高算力成本、缺乏高质量的数据集等,但随着视频扩散模型技术的突破,VideoLDM、Text2Video-Zero、RunwayGen1、RunwayGen2等算法模型不断涌现,我们也看到以Runway为代表的企业在近半年内取得了较大的进步,生成视频的一致性和保真度也有了较大改进,我们看好未来在视频多模态领域的应用机会,同时算力基础设施在视频模态技术的带领下也有望迎来快速增长。
全文如下天风·计算机 | 视频AIGC加速突破,多模态应用发展正当时
在图像生成领域,以扩散模型为代表的方法已经取得了特别成功,迅速取代了基于生成对抗网络(GANs)和自回归变换器的方法。我们认为从排名靠前的应用中可以看出多模态AIGC与效率工具有可能是GPTs应用中的重要部分,多模态领域较高的比重也说明了图片与视频模态的生成是用户需求的主要方向之一。text-to-video技术的奇点正在加速到来,我们看好视频多模态领域的AI产业机会。
采取扩散模型的视频生成与编辑算法取得快速突破,Runway、Pika等公司产品持续迭代
在图像生成领域,以扩散模型为代表的方法已经取得了特别成功,迅速取代了基于生成对抗网络(GANs)和自回归变换器的方法。同样自从VideoDiffusionModel首次尝试设计用扩散模型用于视频生成后,扩散模型在视频生成,于2023年迎来了学术上的快速发展,相应的论文数量显著增加。相应的,Runway、Pika等公司的产品也在取得持续突破,Runway从3月份测试GEN-2模型开始,6月份正式向公众发布,随后在11月更新了4K模式,生成视频的一致性也迎来了重大改进,不连贯、闪烁变形等问题逐步解决。Pika在7月份于Discord推出服务器,截至目前用户已超50万,随后在11月29日推出了Pika1.0,用户能够通过Pika实现画布延展、局部修改、视频时长拓展等编辑需求。
GPTs应用数量突破3万,截止12月1日,最佳GPTs应用聚焦于多模态AIGC与效率工具
从最流行的10个GPTs应用来看,5个为包括图像和视频生成在内的多模态AIGC领域,3个为与包括写作在内的效率工具,其余2个为与Coding相关、主要面向开发者的网页设计,排名前五的分别是面向科研人员的ResearchGPT、多模态生成的BrickBoxGenerator、PhotoMultiverse、VideoGPTbyVEED,和撰写博客等文章的Bloggy:AutomatedBlogPostWriter。我们认为从排名靠前的应用中可以看出多模态AIGC与效率工具有可能是GPTs应用中的重要部分,多模态领域较高的比重也说明了图片与视频模态的生成是用户需求的主要方向之一。
text-to-video技术的奇点正在加速到来,我们看好视频多模态领域的AI产业机会
文生视频是一个年轻的方向,该领域面临多方面的挑战,包括高算力成本、缺乏高质量的数据集等,但随着视频扩散模型技术的突破,VideoLDM、Text2Video-Zero、RunwayGen1、RunwayGen2等算法模型不断涌现,我们也看到以Runway为代表的企业在近半年内取得了较大的进步,生成视频的一致性和保真度也有了较大改进,我们看好未来在视频多模态领域的应用机会,同时算力基础设施在视频模态技术的带领下也有望迎来快速增长。
建议关注
多模态应用:万兴科技、美图公司(与海外组联合覆盖)、易点天下、网达软件、焦点科技、当虹科技
算力:(1)华为昇腾:神州数码、高新发展、烽火通信、拓维信息、广电运通;(2)非华为国产AI芯片:海光信息、寒武纪、云天励飞、景嘉微(与电子组联合覆盖)
风险提示:自主芯片技术不及预期、视频多模态技术发展速度不及预期、应用推广不及预期。