AGI｜AI到底如何生成视频？Sora究竟为何能引爆科技圈？

一、AI生成视频引发新浪潮

二、生成方法及难点

三、Sora的突破进展

（一）可生成不同尺寸视频

（二）可生成1分钟时长视频

（三）图片生成视频

（四）场景一致性

（五）远距离相干性和物体持久性

（六）与世界互动

四、说在最后

一、AI生成视频引发新浪潮

近日随着一个个视频的爆火，OpenAI 全新发布的文生视频模型 Sora瞬间火爆全网。

经历了2023年AI技术的激烈竞争，多模态大模型在应用端呈现出百花齐放的景象。随着投资者对新技术兴趣的不断增长，聊天、搜索、文生图等传统应用领域已无法满足市场的渴望。在这股热潮中，一个尤为引人注目的领域崭露头角——那就是文生视频。

在OpenAI发布其新模型Sora之前，AI制作视频领域早已不是一片未开垦的处女地。该领域事实上早已聚集了众多竞争者，如Runway、Pika等AI视频生成工具在市场上打得火热。AI行业的领军者Stable AI也在去年末发布了开源模型Stable Video Diffusion，不断重塑着这个领域的格局。

在国内市场，阿里巴巴和字节跳动相继推出了AI视频生成工具Animate Anyone和Magic Animate。这两款工具的共同之处在于，它们都具备将静态图像转化为动态视频的能力。

然而，尽管AI生成视频领域看似热闹非凡，但在OpenAI发布Sora模型之前，它并未像聊天、文生图等常见AI工具那样引起广泛的公众关注。这背后的原因，很大程度上是因为文生视频的技术难度远高于前两者。从静态到动态，从平面到立体，这不仅需要强大的算法支持，还需要解决诸如内容连贯性、逻辑合理性以及用户体验等一系列复杂问题。

二、生成方法及难点

在AI生成视频的早期阶段，主要是依赖于GAN（生成式对抗网络）和VAE（变分自编码器）这两种模型。然而，这两种方法生成的视频内容比较受限，主要是静态、单一的画面，且视频的分辨率往往很低，导致它们的应用范围比较狭窄。

随着技术的进步，现在的AI生成视频主要基于两种技术路线。一种是使用Transformer模型，这种模型在文本和图像生成中非常常见，功能强大。另一种则是专门用于视频领域的扩散模型。

图像与视频生成方法流派概览

目前，扩散模型已成为文生视频的主流技术路线，代表性的模型有Gen、Dreamix以及Sora。扩散模型的优势在于其强大的语义理解和内容生成能力，这使得它能够从文本中提取关键信息，并将其转化为生动、逼真的图像和视频。

在扩散模型中，生成过程通常从预训练模型开始，这些模型首先对文本进行特征提取，以捕捉其中的关键语义信息。随后，这些特征被输入到扩散模型中，模型通过逐步添加高斯噪声，再执行反向操作，从而生成与文本描述相匹配的图像。在文生视频的情况下，这一过程进一步扩展到视频生成，通过在文生图的基础上增加时间维度，模型能够将一系列静态图像转化为动态、连贯的视频。

尽管AI视频生成技术已经取得了不小的进步，但概括性的来看，它们还是存在许多待突破的难点问题：

1. 复杂的文本控制：虽然现在的技术可以通过文本嵌入和图像特征的交叉注意力机制来控制生成的图像或视频的体态，但当输入的文本描述非常复杂时，生成的结果可能并不准确，甚至可能丢失部分物体或属性，或者出现物体与描述性属性混淆的情况。

2. 编辑的不连续性：当用户想对生成的图像进行定制化的编辑时，现有的技术可能无法实现连续的编辑，甚至会出现“灾难性遗忘”现象，即模型会忘记之前学到的概念。

3. 缺乏用户反馈：如果生成的结果不符合用户的期望，模型目前还无法直接获取用户的反馈来修正自身的缺陷。用户只能通过不断地修改输入的描述来尝试得到更满意的结果。

4. 视频生成的不成熟：与图像生成相比，视频生成的技术还不够成熟和稳定。生成的视频可能会出现帧间抖动较大的问题，尤其是当需要生成时间较长、物体和场景动态变化较大的视频时，现有的技术往往难以胜任。

AI视频制作已展现出逐步发展的趋势。然而，要实现如文生图等类型工具的大规模应用，仍需跨越一些障碍，特别是解决当前面临的技术难题。

三、Sora的突破进展

上述内容简要概述了AI生成视频的传统方法及其所面临的挑战。但随着Sora模型的崭露头角，我们可以从官网发布的Sora技术报告看到许多长期存在的难题正在逐步得到解决。

（一）可生成不同尺寸视频

Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频进行采样。这使 Sora 可以直接以原始纵横比为不同设备创建内容。也就是说我们可以以同一个视频为基础创造不同尺寸的视频，而视频还能够保持同一个主题风格。

（二）可生成1分钟时长视频

不同于以往部分模型仅能生成几秒的视频或是需要不断提示叠加视频时长，Sora可以根据提示词直接生成1分钟左右的视频场景，同时兼顾视频中人物场景的变换以及主题的一致性。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

（三）图片生成视频

Sora 能够生成视频，提供图像和提示作为输入，模型根据我们所输出的图片来生成一段视频。这意味着其可以创建完美循环的视频、为静态图像制作动画、在时间上向前或向后扩展视频等。

根据图片生成动画

根据主角骑行扩展前后画面

（四）场景一致性

Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中始终如一地移动。

航拍视角展现场景变化

（五）远距离相干性和物体持久性

生成视频有一个很大的困难，就是在选择长视频片段时，要确保时间的连贯性。Sora模型大多数情况下都能很好地处理这个问题。它能记住视频里的人和东西，即使他们暂时被挡住或者不在画面里。甚至，它还能让同一个角色在不同的画面里看起来都一样，这样整个视频就更连贯了。

小狗在中途被遮挡后仍能保持主体一致

（六）与世界互动

Sora 有时可以以简单的方式模拟影响世界状态的动作。例如，画家可以在画布上留下新的笔触，这些笔触会随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。这意味着模型具备一定的通识能力，能够预测到画面的下一步会发生什么。

模仿人物画画的笔触

当然，在研究报告中OpenAI也指出Sora作为一款模拟器，目前仍存在许多局限性。举例来说，它无法精确模拟许多基本相互作用的物理特性，如玻璃破碎等。在模拟其他交互行为时，如吃食物，也不总是能正确反映物体状态的变化。除此之外，模型也存在其他常见的失效模式，如在长时间样本中可能出现的不连贯性或物体的自发出现等问题。