媲美专业电影的AI文生视频模型Movie Gen

ai新闻资讯发布于 2024-10-22 15:19

503 0

在OpenAI正式发布Sora之前，Meta抢先推出了自己的AI视频生成模型——Movie Gen。Movie Gen能生成极其逼真的电影片段，让用户通过简单的文本提示来替换或修改视频中的对象或背景。

这款新模型不仅拥有Sora的所有功能，可以创建不同宽高比的高清视频，支持1080P分辨率，长度可达16秒，帧率为16 FPS；更重要的是，它还具备一些Sora所不具备的功能。

传统的好莱坞电影制作通常采用24帧每秒（FPS）的标准，但Meta的AI生成视频即使在较低的16 FPS速率下，也能够提供接近专业电影级的画质。此外，Movie Gen还能根据文本指令生成相应的背景音乐和音效，使视频更加生动。例如，用户可以输入“将灯笼变成飞向天空的泡泡”，系统就会替换视频中的物体，并且生成的透明泡泡还会准确地反射周围的环境，细节处理得非常到位，生成的视频既流畅又真实。

再比如，输入“一个孩子在沙滩上奔跑，手里拿着风筝，穿着牛仔短裤和黄色T恤，阳光照耀在他身上”，这样的描述能让AI生成一段看起来像是真人拍摄的视频片段，非专业人士几乎无法辨认出其真伪。视频中的孩子在前面奔跑，仿佛有人在背后用手机或稳定器为他拍摄。

试下“一只长着白色毛皮、红脸的猴子在天然温泉中沐浴”，猴子在水中玩耍，画面中有一艘微型木制帆船，周围是郁郁葱葱的树木和岩石，整体效果栩栩如生。这种AI生成视频的方式类似于现实中游客们拍摄的日本温泉里的猴子，无论是猴子的表情还是每一根毛发，都非常逼真。

用户还可以上传自己的照片，让自己成为视频中的主角。这意味着，未来想要更换电影中的主角将会变得非常简单。AI在这一领域的应用已经非常成熟，操作也变得更为简便。

除此之外，Meta的AI视频生成模型还具有更强大的功能，即生成的视频不仅有声，还能根据视频内容自动生成适当的背景音乐和音效。例如，为视频配上车轮滚动的声音或瀑布流水声等，这些细节增加了视频的真实性和沉浸感。一条蛇的出现配以背景音乐，营造出紧张危险的氛围；一名男子站在瀑布下，雨滴倾泻在悬崖和人身上的场景，AI生成的背景音效让人有身临其境之感。

这些效果显示了Movie Gen的强大之处。因此，Meta在推特上自信满满地宣称这是迄今为止最先进的媒体技术模型。

与Sora此前只展示了演示和官网博客的情况不同，Meta在其发表的92页论文中详细公开了Movie Gen的技术架构及训练细节。论文强调了数据规模、模型大小和训练所需计算能力对于训练大规模媒体生成模型的重要性。尤其值得一提的是，他们在这次开发过程中完全摒弃了扩散模型的传统损失函数，转而采用Transformer作为基础网络，并结合匹配流算法来生成视频序列。

总的来说，Movie Gen由视频生成和音频生成两个模型组成，利用Meta拥有的海量视频、文本和图像数据进行联合训练，学习视觉设计、动态场景、物理几何和音频等概念，从而达到了前所未有的精度。

尽管目前Meta尚未开放Movie Gen的源代码，但这并没有阻止业界对它的高度关注。Hugging Face的工程师甚至在评论区分享了Meta的开源主页链接，表达了对Meta早日开放此模型的期待。