为什么说 2023 年是 AI 视频生成的突破年？2024 年的 AI 视频生成有哪些值得期待的地方？

Diffusion Models视频生成-博客汇总

前言：2023年是 AI 视频生成的突破年，AI视频已经达到GPT-2级别了。去年我们取得了长足的进步，但距离普通消费者每天使用这些产品还有很长的路要走。视频的“ChatGPT时刻”何时到来？

前言

现在哪里可以生成 AI 视频？

产品

研究和大型科技公司

AI视频的下一步是什么？

未解决的问题

前言

2023 年是 AI 视频爆发的一年。今年年初，还没有公开的文本到视频模型。仅仅 12 个月后，数十种视频生成产品开始投入使用，全球数百万用户根据文本或图像提示创建短片。

这些产品仍然相对有限——大多数生成 3 到 4 秒的视频，输出的质量往往参差不齐，而且字符一致性等问题尚未得到解决。我们距离能够用单个文本提示（甚至多个提示！）创建皮克斯级别的短片还很遥远。

然而，过去一年我们在视频生成方面看到的进展表明，我们正处于大规模变革的早期阶段——类似于我们在图像生成方面看到的情况。我们看到文本到视频模型的持续改进，以及图像到视频和视频到视频等分支的发展。

为了帮助了解创新的爆炸式增长，我们跟踪了迄今为止最大的发展、需要关注的公司以及该领域中剩余的基本问题。

现在哪里可以生成 AI 视频？

产品

今年到目前为止，我们已经跟踪了 21 个公共产品。虽然您可能听说过 Runway、Pika、Genmo 和 Stable Video Diffusion，但还有一长串其他功能有待发现。

些产品大多数来自初创公司——其中许多都是从 Discord 机器人开始的，它有一些优势：

您不需要构建自己的面向消费者的界面，并且可以专注于模型质量
您可以利用 Discord 每月 1.5 亿活跃用户的基础进行分发 - 特别是如果您在该平台的“发现”页面上获得推荐
公共渠道为新用户提供了一种简单的方法来获得创作灵感（通过查看其他人生成的内容）并为产品提供社会证明

然而，我们开始看到更多的视频产品建立自己的网站甚至移动应用程序，特别是当它们成熟时。虽然 Discord 提供了一个很好的启动板，但它在纯生成之上添加的工作流程方面受到限制，并且团队对消费者体验的控制很少。还值得注意的是，有很大一部分人不使用 Discord，可能会发现界面令人困惑或不经常返回它。

研究和大型科技公司

Google、Meta 和其他公司在哪里？它们在公共产品列表中明显缺失——尽管您可能已经看到了它们发布的引人注目的模型，例如 Meta 的Emu Video、Google 的VideoPoet和Lumiere以及字节跳动的MagicVideo。

到目前为止，除阿里巴巴之外的大型科技公司都选择不公开发布其视频生成产品。相反，他们发表了有关各种形式的视频生成的论文，并发布了演示视频，但没有宣布他们的模型是否或何时公开。

这些公司都拥有巨大的分销优势，其产品拥有数十亿用户。当他们的演示看起来很强大并且他们有机会在这个新兴类别中占领有意义的市场份额时，为什么不放弃他们的视频模型呢？

重要的是要记住，这些公司行动缓慢。尽管 Instagram去年年底为 Stories推出了AI 背景生成器，而 TikTok 也已悄然推出了 AI 滤镜，但大多数公司仍未发布文本转图像产品。法律、安全和版权问题往往导致这些公司难以将研究成果转化为产品，从而导致产品推广延迟，从而让新来者有机会获得先发优势。

AI视频的下一步是什么？

如果您曾经使用过其中一款产品，您就会知道在人工智能视频进入黄金时段之前，还有很多需要改进的地方。模型生成与您的提示相匹配的精美剪辑的“神奇时刻”是可能的，但相对较少。更常见的是，您需要点击“重新生成”几次并裁剪或编辑输出才能获得专业级剪辑。

该领域的大多数公司都专注于解决一些核心（尚未解决）问题：

控制——你能控制场景中发生的事情（例如，如果你提示“男人向前走”，运动是否如描述的那样？）以及“相机”如何移动？对于后一点，许多产品都添加了功能，允许您缩放或平移相机，甚至添加特殊效果。

前一点——运动是否如描述的那样？ - 更难解决。这是一个潜在的模型质量问题（模型是否理解并且可以根据您的提示执行），尽管一些公司正在尝试为用户提供更多的预生成控制权。 Runway 的运动画笔就是一个很好的例子，因为它允许您突出显示图像的特定区域并确定它们的移动方式。

时间连贯性——如何使角色、物体和背景在帧之间保持一致而不变形或变形？这是所有公开可用模型中非常常见的问题。如果您今天看到一个时间连贯的视频，长度超过几秒，则很可能是视频到视频，拍摄视频并使用AnimateDiff 提示旅行之类的工具转换风格。
长度——你能制作超过几秒的剪辑吗？这与时间一致性密切相关。许多公司限制您可以生成的视频的长度，因为他们无法确保几秒钟后的任何一致性。如果您看到长篇 AI 视频（如下所示），您会注意到它由一堆短片组成，并且需要数十（如果不是数百）提示！

未解决的问题

感觉AI视频已经达到GPT-2级别了。去年我们取得了长足的进步，但距离普通消费者每天使用这些产品还有很长的路要走。视频的“ChatGPT时刻”何时到来？该领域的研究人员和创始人之间尚未达成广泛共识，还有一些问题有待回答：

当前的扩散架构适用于视频吗？今天的视频模型是基于扩散的：它们本质上生成帧并尝试在它们之间创建时间一致的动画（有多种策略可以做到这一点）。他们对 3D 空间以及对象如何交互没有内在的理解，这解释了扭曲/变形。例如，在剪辑的前半部分中看到一个人沿着街道行走，然后在后半部分中融入地面的情况并不少见 - 该模型没有“硬”表面的概念。由于缺乏场景的 3D 概念化，从不同角度生成相同的剪辑也很困难（如果不是不可能的话）。

有些人认为视频模型从根本上不需要了解 3D 空间。如果他们接受足够高质量数据的训练，他们将能够学习对象之间的关系以及如何从不同角度表示场景。其他人相信这些模型需要 3D 引擎来生成时间上连贯的内容，特别是在几秒钟之后。

高质量的训练数据从哪里来？训练视频模型比其他内容模式更难，很大程度上是因为没有那么多高质量的、有标签的训练数据供这些模型学习。语言模型通常在Common Crawl等公共数据集上进行训练，而图像模型则在LAION和ImageNet等标记数据集（文本图像对）上进行训练。

视频数据更难获得。虽然 YouTube 和 TikTok 等平台上不乏可公开访问的视频，但这些视频没有标签，而且可能不够多样化（猫剪辑和有影响力的道歉之类的内容在数据集中可能过多！）。视频数据的“圣杯”可能来自工作室或制作公司，它们拥有从多个角度拍摄的长视频，并附有脚本和指导。然而，他们是否愿意授权这些数据进行训练还有待确定。

这些用例将如何在平台/模型之间进行细分？我们在几乎所有内容模式中看到的是，一种模型并不能“胜任”所有用例。例如，Midjourney、Ideogram 和 DALL-E 都具有不同的风格，并且擅长生成不同类型的图像。

我们预计视频也会有类似的动态。如果您测试当今的文本到视频和图像到视频模型，您会发现它们擅长不同的风格、运动类型和场景构成（我们将在下面展示两个示例）。围绕这些模型构建的产品可能会在工作流程方面进一步分化，并服务于不同的终端市场。这甚至不包括不进行纯文本到视频的相邻产品，而是处理诸如动画人类头像（例如HeyGen）、VFX（例如Wonder Dynamics）和视频到视频（例如，DomoAI）。

提示：“雪落在城市街道上，逼真”

玄武

跑道

稳定的视频扩散

皮卡实验室

提示：“小男孩玩老虎，动漫风格”

玄武

稳定的视频扩散

皮卡实验室

谁将拥有工作流程？除了纯粹的视频生成之外，制作一个好的剪辑或电影通常需要编辑，特别是在当前的范例中，许多创作者正在使用视频模型来为在另一个平台上创建的照片制作动画。以中途图像开始、在 Runway 或 Pika 上进行动画处理、然后在 Topaz 中进行升级的视频并不罕见。然后，创作者会将视频带到 Capcut 或 Kapwing 等编辑平台，并添加配乐和画外音（通常在 Suno 和 ElevenLabs 等其他产品上生成）。

在这么多产品之间来回切换是没有意义的。我们期望看到视频生成平台开始自行添加其中一些功能。例如，Pika 现在允许您在其网站上升级视频。然而，我们也看好人工智能原生编辑平台，它可以轻松地在一个地方从不同模型跨模式生成内容并将这些内容拼凑在一起。

原文链接：https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/#:~:text=2023%20was%20a%20breakout%20year,from%20text%20or%20image%20prompts.