视频生成模型作为世界模拟器

导览

文章来自OpenAI

这篇文章主要介绍了Open AI的最新模型Sora，给出了一些Sora生成的视频效果，并简要介绍了Sora背后的原理。

Sora主要的特点包括：

模型方面
- 视频转换为图块（Patch）的序列
- 图块通过压缩网络，将图片转换成隐式的向量表示
- 使用Transformer 同时建模图块的空间序列，以及时间的序列
- Transformer输出的隐式向量，再解码成图块
效果方面
- 生成的视频时长特别长，达到了60s
- 视频时长、分辨率、角度等都可以定制
- 由于使用了gpt，模型的语言理解能力特别强
- 可以通过文本、图像、视频等作为Prompt，生成视频，对于视频编辑特别有意义
- 可以实现视频扩展、多个视频融合、视频背景替换
- 具有很强的世界模拟能力，3D建模、长时间建模、物体之间的交互都很好

本人思考

Sora是Chat GPT成功的延续，一招鲜吃遍天，把gpt 上的技巧在视频生成上进行了拓展和试验。

主要的思路特点包括：

利用尽可能多的数据，特别是无监督数据
尽量建立一种通用的模型架构，通过叠加模型的层数、模型的参数等，实现模型效果的大幅提升
尽可能降低模型的复杂度，这里是将图片降维成patch隐式表示，降低了模型的复杂度，提升了建模的有效性
尽可能地吸收现有模型的优点，集百家所长，考虑各种技术等优势，进行有效整合
模型的训练和模型等推断过程要尽可能一致，防止出现训练的目标和推断过程目标存在偏差。例如Sora建模训练的过程，就是最终模型生成视频的过程

原文

OpenAI探索在视频数据上进行大规模生成模型的训练。具体来说，OpenAI联合训练了文本条件扩散模型，用于处理可变长度、分辨率和长宽比的视频和图像。OpenAI利用一个基于变换器的架构，该架构在视频和图像的时空补丁上操作潜在编码。OpenAI最大的模型Sora能够生成一分钟的高保真视频。结果表明，扩展视频生成模型是构建物理世界通用模拟器的有前景的途径。

这份技术报告聚焦于以下两个方面：(1) OpenAI将各种类型的视觉数据转化为统一表示的方法，以便对生成模型进行大规模训练，以及 (2) 对Sora的能力和局限性进行定性评估。本报告不包含模型和实现细节。

许多先前的工作研究了使用各种方法对视频数据进行生成建模，包括循环网络、生成对抗网络、自回归变换器和扩散模型等。这些工作通常专注于特定类别的视觉数据、较短的视频或固定大小的视频。Sora是一种视觉数据的通用模型——它可以生成跨越不同时长、长宽比和分辨率的视频和图像，高清视频长达一分钟。

将视觉数据转化为Patch

OpenAI受到大型语言模型的启发，这些模型通过在互联网规模的数据上进行训练获得了通用的能力。LLM范式的成功部分归功于优雅地统一了文本的多种形式，包括代码、数学和各种自然语言的标记。在这项工作中，OpenAI考虑了如何使视觉数据的生成模型继承这些好处。而LLMs具有文本标记，Sora则具有视觉补丁。补丁已被证明是视觉数据模型的有效表示。OpenAI发现，补丁是一种高度可扩展且有效的表示方法，可用于训练各种类型的视频和图像的生成模型。

在高层次上，OpenAI通过首先将视频压缩成低维潜在空间，然后将表示分解为时空补丁，将视频转换为补丁。

视频压缩网络

OpenAI训练了一个网络来降低视觉数据的维度。这个网络接受原始视频作为输入，并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间中进行训练，并生成视频。OpenAI还训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。

时空隐式图块

给定一个压缩的输入视频，OpenAI提取一系列时空补丁，这些补丁充当变换器标记。这种方案也适用于图像，因为图像只是具有单帧的视频。OpenAI基于补丁的表示使得Sora能够在分辨率、持续时间和长宽比可变的视频和图像上进行训练。在推理时，OpenAI可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频大小。

拓展Transformer模型到视频生成

Sora是一个扩散模型，给定输入的噪声补丁（以及文本提示等条件信息），它被训练成预测原始的“干净”补丁。重要的是，Sora是一个扩散变换器。变换器在各种领域，包括语言建模、计算机视觉和图像生成等方面，展示了出色的扩展性能。

在这项工作中，OpenAI发现扩散变换器在视频模型方面也具有有效的扩展性。下面，OpenAI展示了随着训练的进行，使用固定种子和输入的视频样本的比较。随着训练计算量的增加，样本质量显著提高。

变化的持续时间、分辨率、长宽比

过去对图像和视频生成的方法通常会将视频调整大小、裁剪或修剪成标准尺寸，例如256x256分辨率的4秒视频。OpenAI发现，相反，训练原始大小的数据具有几个好处。

采样灵活性

Sora可以对宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有内容进行采样。这使得Sora可以直接为不同设备按其原生长宽比创建内容。它能够在低分辨率下快速原型化内容，然后使用同一模型生成全分辨率的内容。

改进的构图和画面组合

OpenAI凭经验发现，使用视频的原生长宽比进行训练能够改善构图和画面组合。OpenAI将Sora与将所有训练视频裁剪为正方形的模型版本进行比较，这是训练生成模型时的常见做法。经过正方形裁剪训练的模型（左侧）有时会生成主题只在画面中部分可见的视频。相比之下，来自Sora的视频（右侧）具有改进的构图。

语言理解

训练文本到视频生成系统需要大量带有对应文本标题的视频。OpenAI应用了DALL·E 3中介绍的重新标题化技术到视频上。OpenAI首先训练一个高度描述性的标题生成模型，然后使用它为OpenAI的训练集中的所有视频生成文本标题。OpenAI发现，基于高度描述性的视频标题进行训练不仅提高了文本的准确性，还提高了视频的整体质量。

与DALL·E 3类似，OpenAI还利用GPT将短用户提示转换为更详细的长标题，并将其发送到视频模型。这使得Sora能够生成高质量的视频，准确地遵循用户提示。

使用图像和视频作为提示

以上所有结果和OpenAI的首页展示的都是文本到视频的样本。但是Sora也可以通过其他输入来提示，比如预先存在的图像或视频。这种能力使得Sora能够执行各种图像和视频编辑任务——创建完美循环的视频、将静态图像动画化、延长视频的时间或向后延伸等。

DALL·E图像动画化

Sora能够生成视频，只需提供图像和提示作为输入。下面OpenAI展示了基于DALL·E 231和DALL·E 330图像生成的示例视频。

延长生成的视频

Sora还能够延长视频，无论是向前还是向后延伸。以下是四个视频，它们都是从一个生成的视频段开始向后延伸的。因此，这四个视频每个都从不同的起点开始，但最终都导向相同的结局。

OpenAI可以使用这种方法将视频向前和向后延伸，以产生无缝的无限循环。

视频到视频编辑

扩散模型已经为从文本提示中编辑图像和视频提供了大量方法。下面OpenAI将其中一种方法，SDEdit，应用到Sora上。这种技术使得Sora能够在零样本情况下转换输入视频的风格和环境。

连接视频

OpenAI还可以使用Sora逐渐在两个输入视频之间插值，创建具有完全不同主题和场景构图的视频之间的无缝过渡。在下面的示例中，中间的视频插值在左侧和右侧的相应视频之间。

图像生成能力

Sora还具有生成图像的能力。通过将高斯噪声的补丁排列在一个帧的时空范围内的空间网格中来实现这一点。该模型可以生成大小可变的图像——高达2048x2048的分辨率。

新兴的模拟能力

OpenAI发现，当视频模型在大规模训练时，会表现出许多有趣的新兴能力。这些能力使得Sora能够模拟物理世界中人、动物和环境的一些方面。这些特性在没有任何显式的3D、物体等归纳偏差的情况下出现——它们纯粹是规模现象。

3D一致性。Sora能够生成具有动态摄像机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中保持一致移动。

长期一致性和对象持久性。视频生成系统面临的一个重要挑战是在采样长视频时保持时间一致性。OpenAI发现，Sora通常（尽管并非总是）能够有效地建模短期和长期依赖关系。例如，OpenAI的模型可以在被遮挡或离开画面时仍然保留人物、动物和物体。同样，它可以在单个样本中生成同一个角色的多个镜头，保持他们在整个视频中的外观。

与世界互动。Sora有时可以模拟影响世界状态的简单动作。例如，一位画家可以在画布上留下新的笔触，这些笔触会随着时间的推移而持续存在，或者一个人可以吃掉一个汉堡并留下咬痕。

模拟数字世界。Sora还能够模拟人工过程——一个例子是视频游戏。Sora可以同时通过基本策略控制Minecraft中的玩家，同时以高保真度渲染世界及其动态。这些能力可以通过提示Sora使用提到“Minecraft”的标题来零样本激发。

这些能力表明，继续扩展视频模型是发展高度功能的物理世界和数字世界模拟器的有前景的路径，以及这些模拟器中的物体、动物和人类。

讨论

目前，Sora作为模拟器存在许多限制。例如，它无法准确模拟许多基本交互的物理过程，比如玻璃破碎。其他交互，比如吃食物，不总能正确地改变物体状态。OpenAI在首页列举了模型的其他常见失效模式，比如在长时间样本中产生的不连贯性或物体的突然出现。

Sora目前具有的能力表明，继续扩展视频模型是发展具备能力的物理世界和数字世界模拟器，以及其中的物体、动物和人类的有前景的路径。

参考文献

References

Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." International conference on machine learning. PMLR, 2015.
Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).
Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).
Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).
Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).
Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.
Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).
Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.
Ho, Jonathan, et al. "Imagen video: High definition video generation with diffusion models." arXiv preprint arXiv:2210.02303 (2022).
Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).
Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).
Arnab, Anurag, et al. "Vivit: A video vision transformer." Proceedings of the IEEE/CVF international conference on computer vision. 2021.
He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution." arXiv preprint arXiv:2307.06304 (2023).
Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).
Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." International conference on machine learning. PMLR, 2015.
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851.
Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models." International Conference on Machine Learning. PMLR, 2021.
Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis." Advances in Neural Information Processing Systems. 2021.
Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models." Advances in Neural Information Processing Systems 35 (2022): 26565-26577.
Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
Chen, Mark, et al. "Generative pretraining from pixels." International conference on machine learning. PMLR, 2020.
Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.
Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation." arXiv preprint arXiv:2206.10789 2.3 (2022): 5.
Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3(opens in a new window) . pdf 2.3 (2023): 8
Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 1.2 (2022): 3.
Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations." arXiv preprint arXiv:2108.01073 (2021).

Sora技术介绍