视频AIGC加速突破,多模态应用发展正当时
发布时间 :2023-12-04 00:43:39
(1)Pika再次掀起文生视频热潮,AI多模态应用逐渐繁荣
11月29日,AI 初创公司 Pika 宣布融资筹集了 5500 万美元,根据福布斯报道,目前,公司估值在2亿美元到 3 亿美金之间。本轮融资由 Lightspeed Venture Partners 领投,多名知名天使投资者参投。Pika 由前斯坦福大学人工智能实验室的博士生 Demi Guo 和 Chenlin Meng 共同创立,是一家创造 AI 驱动平台以编辑和从标题及静态图像生成视频的初创公司,目前其已有50万用户,每周会生成近百万个新视频。
(2)Pika 1.0正式推出,在AI视频生成领域取得重点突破Pika Labs 宣布推出视频生成器 Pika 1.0,根据Pika官网视频显示,Pika 1.0不仅可以支持文生视频、图生视频,还可以支持3D动画、动漫或电影等各种类型的相互转化,且还可以支持视频局部修改、视频时长拓展等编辑功能。
(3)国内外AI视频生成领域进展不断,有望实现更广泛的应用场景革新
11 月 20 日,Runway 宣布发布新功能和更新,包括运动画笔(Motion Brush)、Gen-2 风格预设、更新的相机控制(如以小数调整相机移动的导演模式)以及图像模型的改进。11月30日,Stability AI 日前推出了 Stable Diffusion XL Turbo(SDXL Turbo),能够进行“即时文字转图像输出”,并能够保证图片的质量。而在11月24日,Adobe宣布已收购AI视频生成创业公司Rephrase.ai。而早在9月底,万兴科技宣布将发布国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型“天幕”。11月24日晚,万兴科技则在其官方视频号上线一则 AI 创作的短视频《女孩的一生》,展现其多媒体大模型的视频生成能力。
【视频AIGC加速突破,多模态应用发展正当时 】
1、采取扩散模型的视频生成与编辑算法取得快速突破,Runway、Pika等公司产品持续迭代
在图像生成领域,以扩散模型为代表的方法已经取得了特别成功,迅速取代了基于生成对抗网络(GANs)和自回归变换器的方法。同样自从Video Diffusion Model首次尝试设计用扩散模型用于视频生成后,扩散模型在视频生成,于2023年迎来了学术上的快速发展,相应的论文数量显著增加。相应的,Runway、Pika等公司的产品也在取得持续突破,Runway从3月份测试GEN-2模型开始,6月份正式向公众发布,随后在11月更新了4K模式,生成视频的一致性也迎来了重大改进,不连贯、闪烁变形等问题逐步解决。Pika在7月份于Discord推出服务器,截至目前用户已超50万,随后在11月29日推出了Pika1.0,用户能够通过 Pika 实现画布延展、局部修改、视频时长拓展等编辑需求。
2、GPTs应用数量突破3万,截止12月1日,最佳GPTs应用聚焦于多模态AIGC与效率工具
从最流行的10个GPTs应用来看,5个为包括图像和视频生成在内的多模态AIGC领域,3个为与包括写作在内的效率工具,其余2个为与Coding相关、主要面向开发者的网页设计,排名前五的分别是面向科研人员的ResearchGPT、多模态生成的Brick Box Generator、Photo Multiverse、VideoGPT by VEED,和撰写博客等文章的Bloggy:Automated Blog Post Writer。我们认为从排名靠前的应用中可以看出多模态AIGC与效率工具有可能是GPTs应用中的重要部分,多模态领域较高的比重也说明了图片与视频模态的生成是用户需求的主要方向之一。
3、text-to-video技术的奇点正在加速到来,我们看好视频多模态领域的AI产业机会
文生视频是一个年轻的方向,该领域面临多方面的挑战,包括高算力成本、缺乏高质量的数据集等,但随着视频扩散模型技术的突破,Video LDM、Text2Video-Zero、Runway Gen1、Runway Gen2等算法模型不断涌现,我们也看到以Runway为代表的企业在近半年内取得了较大的进步,生成视频的一致性和保真度也有了较大改进,我们看好未来在视频多模态领域的应用机会,同时算力基础设施在视频模态技术的带领下也有望迎来快速增长。
豌豆围脖
你11月30号14点15分微博抄袭躺平学教授美第奇了!!!!!