OpenAI Sora 1分钟视频生成现实不存在了！

前言：

We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.

Introducing Sora, our text-to-video model. Sora can generate videos up to a minute long while maintaining visual quality and adherence to the user’s prompt.

我们正在教人工智能理解和模拟运动中的物理世界，目的是训练模型，帮助人们解决需要真实世界互动的问题。

介绍一下我们的文字视频模型 Sora。Sora 可以生成长达一分钟的视频，同时保持视觉质量并符合用户的提示。

如今，红队人员可以使用 Sora 评估关键领域的危害或风险。我们还允许一些视觉艺术家、设计师和电影制片人访问，以获得反馈意见，了解如何改进模型，使其对创意专业人士最有帮助。

我们将尽早分享我们的研究进展，以便开始与 OpenAI 以外的人员合作并获得他们的反馈，同时让公众了解人工智能的发展前景。

本期分享目录

1.Sora 工作原理

2.Sora 应用场景

3.Sora 引领的技术变革趋势与Stablediffusion 3论文对比

官网地址

https://openai.com/sora

官方技术论文

https://openai.com/research/video-generation-models-as-world-simulators

官方视频集锦

https://cloud.tencent.com/developer/video/79994

2月16日凌晨2点，各个群便突然地炸起来了，Openai发布的Sora可以生成一个60S无闪动长镜头的视频，朋友圈纷纷刷屏，现实，不存在了~~

其实无论Sora发布与否当下不乏有动辄百万的AI创意短片长片内容，通过剪辑配音达到一样短片大片的效果，即便Sora发布也是一样，共同需要的一点：创意

有人说创意AI也能生成.....

在昨晚的Sora讨论会上各位大佬也对当下的Sora发布做了分享，有人认为重创了影视行业，但带来了机遇和降本增效.....

1.Sora 工作原理

1.它为什么叫做世界大模型？

在大量的Sora官方以及内测视频中，我们看到更多的是镜头运镜，符合物理规律，比如走在沙滩上的海龟，它用脚蹬沙子，产生的重力感，以及在沙滩上留下的沙坑，再比如：一位女士，带着墨镜，穿着黑色的夹克和红色的裙子，走在繁华的日本街道上，夜晚，雨水淋湿了街道，霓虹灯，这个人物在街头走路的路线，切换近景时墨镜上反射的斑马线，这些无一不体现了Sora是符合物理规律的。

技术实现拆解

输入视频被视为由N帧图像组成的HxW矩阵，这些图像通过一个Encoder被分割成空间-时间片段（spatial temporal patch）。这些片段随后被展平成一维向量，并输入到扩散模型中。根据OpenAI的资料，这个Encoder可能是一个视频变换器（Video transformer），它将视频划分为多个元组（tuplet），每个元组转化为一个token。这些token通过空间-时间注意力机制进行处理，以捕捉视频的空间和时间特征，从而生成有效的视频表示token，正如图中所示的灰色方块部分。

Video generation models as world simulators

我们探索在视频数据上对生成模型进行大规模训练。具体来说，我们在不同时长、分辨率和长宽比的视频和图像上联合训练文本条件扩散模型。我们利用转换器架构，对视频和图像潜码的时空片段进行操作。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的研究结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条可行之路。

Sora的工作技术原理基于几个关键的组成部分，这些组成部分共同使得Sora能够生成高质量的视频内容。以下是Sora技术原理的主要部分：

视觉数据的统一表示：
- Sora将视频和图像数据转换为空间时间块（patches），这些块类似于大型语言模型（LLM）中的文本标记。这种表示方法允许模型处理不同分辨率、时长和宽高比的视觉数据。
视频压缩网络：
- Sora使用一个网络来降低视觉数据的维度，这个网络将原始视频输入压缩到一个低维的潜在空间中，同时在时间和空间上进行压缩。这样，Sora在生成视频时，都是在这个压缩的潜在空间内进行。
空间时间潜在块：
- 从压缩的输入视频中提取一系列空间时间块，这些块作为变换器（transformer）的标记。这种基于块的表示方法使得Sora能够训练和生成具有可变分辨率、时长和宽高比的视频和图像。
扩散模型：
- Sora是一个扩散模型，它接受带有噪声的输入块，并被训练来预测原始的“干净”块。这个过程涉及到从噪声中逐步恢复出清晰的图像或视频帧。
变换器架构：
- Sora利用变换器架构来处理空间时间块。变换器在多个领域（如语言建模、计算机视觉和图像生成）已经显示出了显著的扩展性。在这项工作中，研究者发现扩散变换器在视频模型中同样有效。
文本到视频的生成：
- Sora能够根据文本提示生成视频。这需要大量的带有对应文本标题的视频数据。研究者们应用了在DALL·E 3中引入的重新标题技术，首先训练一个高度描述性的标题生成模型，然后用它为训练集中的所有视频生成文本标题。
图像和视频的编辑能力：
- Sora不仅可以通过文本提示生成视频，还可以通过现有的图像或视频作为输入来生成视频。这使得Sora能够执行广泛的图像和视频编辑任务，如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。
模拟能力：
- 当在大规模上训练时，视频模型展现出一些有趣的新兴能力，例如3D一致性、长距离连贯性和对象持久性。Sora有时能够模拟影响世界状态的简单动作，例如在画布上留下持久的笔触，或者模拟数字世界，如视频游戏。

这些技术原理共同构成了Sora的核心，使其能够生成高保真度的视频内容，并在一定程度上模拟物理世界和数字世界中的物体、动物和人物。

Sora模型是一个通用的视觉数据模型，能够生成多种时长、宽高比和分辨率的视频和图像，最高可达一分钟的高清视频。研究者们从大型语言模型中汲取灵感，这些模型通过在互联网规模的数据上训练获得通用能力。Sora模型使用视觉块（patches）作为其“文本标记”，这些块是视频数据的有效表示形式。

Sora是一个扩散模型，它接受带有噪声的输入块（以及像文本提示这样的条件信息），并被训练来预测原始的“干净”块。Sora在训练过程中，随着训练计算量的增加，样本质量显著提高。

Sora模型还展示了一些有趣的新兴能力，例如3D一致性、长距离连贯性和对象持久性，以及与世界互动的能力。例如，Sora可以模拟画家在画布上留下持久的笔触，或者一个人吃汉堡并留下咬痕。Sora还能够模拟数字世界，如同时控制Minecraft中的玩家并高保真地渲染世界及其动态。

尽管Sora在模拟方面取得了进展，但它仍然存在许多局限性，例如无法准确模拟许多基本交互的物理特性，如玻璃破碎。论文还列举了模型的其他常见失败模式，如在长时间样本中出现的不一致性或物体的自发出现。

作者们认为，Sora目前展示的能力表明，继续扩展视频模型是开发物理和数字世界模拟器的有前途的路径，这些模拟器将能够模拟其中的对象、动物和人物。

2.Sora 应用场景

周鸿祎对Sora的看法

如果说到音视频的应用场景，那么不得不提到的就是电影行业，假设我们常见的一部电影长度为120min，那么理论上我们调试120个Sora视频即可组成一部精美的电影作品，包含了特效，脚本，分镜。在Sora之前，我们看看同类别的其他产品，不管是Runway 、pika、Gen2通常都是生成4s、12s

左右的长度视频，且可控性并不怎么好，而Animatediff 虽然可以产生长视频，但是又太依赖于显存，可控性即便到了V3也还是差强人意，对比起来这就是Sora颠覆世界的原因、

影视公司的关门更多的是因为导演的修改和反复的返工。

这个行业生态会发生更大的变化,后来可能会变成服务业。

电影生产厂,电影作坊。聪明人是饿不死的。

做概念和创意分散以及对情绪的调动。这个观点非常有意思,值得实践

首先是影视制作流程的颠覆,创意总监(最开始用AI的),是为了灵感生成以及沟通成本,未来的AI工具一定

会降低成本。

AI取代电影制作,这一点倒不会特别担心,Sora对于编剧来说特别友好,因为可以用把一些场景去进行视频可视化呈现。会让大家的视觉审美提升,对特别美的东西会产生审美疲劳,所以对于讲故事能力的要求又提高了。 --李东东/ 极客导演

在你做一些和现实没有关系的电影的时候,科幻/玄幻题材的认知是没有那么清晰的。Sora之前,集中都爆发在这两个领域。

最让我激动的是视频转视频功能。把一些经典片段,只要是我自己想要做的东西,通过视频的转绘,只要控制一致性和稳定性,可以产生非常多作品。(值得实践)

第一点担心,在一条短片当中,一条短片一个元宇宙,其他方式帮助我们完成。我们对于现在画面内的可控程度,帮助导演创作的基础所在。--闲人一坤

并不存在没有技术问题,我玩AI已经很久了。我现在不谈降本的问题,我问大家有没有人用AI赚到了更多的钱,没有人投钱的话,你降了那么多本有什么用呢?其实AI的进化并不会让每个人都成为创作者,而是创作会升维度。

我的看法是,红药丸和白药丸,进化了一定程度了,为什么VR和AI同时发展起来。视频太廉价了,连甲方都不存在了。Al升格到更高的角度上去,基于3维,直接在VR里面去创作故事。后面的发展不要看视频了,VR的跟电影一样的重新整理生成的媒介叙事。7-8年前,我就不学建模,不要再去搞这些三维的东西,因为迟早会被替代的。

蓝药丸就是回归到现实当中,数字文物整理,现有的东西会成为数字的锚点。2-3年前把数字资产赶紧收集起来。当然现在做已经有点晚了。

你要把视频升格,lerf更高的东西。传统以及影视行业都会被冲击。

Al绘图刚出来的时候大家都会说绘画会永远生存下去,但是在现实生活中已经没有影响力了,当然媒体不会那么快生成出来。

数字资产的仓鼠,另一方面就是现实世界的数字资产。因为在未来这些东西将不会再值钱了。在将来,真实的东西反而是更为昂贵的。--康托耶夫

3.Sora 引领的技术变革趋势

Sora 引领的技术变革趋势这就不得不提到了当下也是非常火的Stablediffusion3，倒不是因为两者是同一个产品赛道，而是因为两者是同一个架构方式来实现的，Stable_diffusion_3 官方论文发布,确定了,Stablediffusion3与Sora的架构是一致的。

2月16日伴随着OpenAI世界大模型Sora的发布，stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向，一个是图像生成方向，那么两者没有必然的联系，但Sora和Stablediffusion3的架构是出奇的一致，核心部分都是采用了Difusion Transformer的方式(在Stablediffusion3中称之为DiT)。

今天，我们将发表研究论文，深入探讨为《稳定扩散 3》提供动力的底层技术。

根据人类偏好评估，Stable Diffusion 3 在排版和及时性方面优于 DALL-E 3、Midjourney v6 和 Ideogram v1 等最先进的文本到图像生成系统。

我们新的多模态扩散变换器（MMDiT）架构为图像和语言表示使用了单独的权重集，与 SD3 以前的版本相比，提高了文本理解和拼写能力。

我们将稳定扩散 3 的输出图像与其他各种开放模型（包括 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α）以及封闭源代码系统（如 DALL-E 3、Midjourney v6 和 Ideogram v1）进行了比较，以便根据人类反馈来评估性能。在这些测试中，人类评估员从每个模型中获得输出示例，并要求他们根据模型输出在多大程度上紧跟所给提示的上下文（"紧跟提示"）、在多大程度上根据提示渲染文本（"排版"）以及哪幅图像具有更高的美学质量（"视觉美学"）来选择最佳结果。

Prompt: A surreal and humorous scene in a classroom with thewords 'GPUs go brrrrrr' written in white chalk on a blackboard. IIn

front of the blackboard, a group of students are celebrating. Theese students are uniquely depicted as avocados, complete with

little arms and legs, and faces showing expressions of joy and excitement. The scene captures a playful and imaginative

atmosphere, blending the concept of a traditional classroom witth the whimsical portrayal of avocado students

翻译：

教室里的一个超现实幽默的场景，黑板上用白色粉笔写着“GPUs go brrrrr”。IIn

在黑板前，一群学生正在庆祝。这些学生被独特地描绘成鳄梨

小胳膊小腿，脸上流露出喜悦和兴奋的表情。这个场景捕捉到了一个有趣而富有想象力的

氛围，融合了传统课堂的概念和鳄梨学生的异想天开的形象

根据测试结果，我们发现 Stable Diffusion 3 在上述所有方面都与目前最先进的文本到图像生成系统相当，甚至更胜一筹。

在消费级硬件上进行的早期未优化推理测试中，我们最大的 8B 参数 SD3 模型适合 RTX 4090 的 24GB VRAM，使用 50 个采样步骤生成分辨率为 1024x1024 的图像需要 34 秒。此外，在最初发布时，稳定扩散 3 将有多种变化，从 800m 到 8B 参数模型不等，以进一步消除硬件障碍。

在训练过程中测量视觉保真度和文本对齐度时，我们新颖的 MMDiT 架构优于 UViT（Hoogeboom 等人，2023 年）和 DiT（Peebles 和 Xie，2023 年）等成熟的文本到图像骨干。

得益于《稳定扩散 3》改进的提示跟踪功能，我们的模型有能力制作出聚焦于各种不同主题和质量的图像，同时还能高度灵活地处理图像本身的风格。

图片

Prompt: Translucent pig, inside is a smaller pig.

半透明的猪，里面是一个较小的猪。

Prompt: A massive alien space ship that is shaped like a pretzel.

一艘巨大的外星飞船，形状像椒盐卷饼。

性能对比

根据测试结果，我们发现 Stable Diffusion 3 在上述所有方面都与目前最先进的文本到图像生成系统相当，甚至更胜一筹。

在消费级硬件上进行的早期未优化推理测试中，我们最大的 8B 参数 SD3 模型适合 RTX 4090 的 24GB VRAM，使用 50 个采样步骤生成分辨率为 1024x1024 的图像需要 34 秒。此外，在最初发布时，稳定扩散 3 将有多种变体，从 800m 到 8B 参数模型不等，以进一步消除硬件障碍。

架构细节

对于文本到图像的生成，我们的模型必须同时考虑文本和图像两种模式。因此，我们称这种新架构为 MMDiT，意指其处理多种模式的能力。与之前版本的稳定扩散一样，我们使用预训练模型来推导合适的文本和图像表征。具体来说，我们使用三种不同的文本嵌入模型--两种 CLIP 模型和 T5--来编码文本表征，并使用改进的自动编码模型来编码图像标记。

SD3 架构基于扩散变换器（"DiT"，Peebles & Xie，2023 年）。由于文本嵌入和图像嵌入在概念上有很大不同，因此我们对两种模式使用两套不同的权重。如上图所示，这相当于为每种模态设置了两个独立的变换器，但将两种模态的序列结合起来进行注意力操作，从而使两种表征都能在各自的空间内工作，同时也将另一种空间考虑在内。

图片

我们利用重新加权的整流公式和 MMDiT 骨干网对文本到图像的合成进行了扩展研究。我们训练的模型从带有 450M 个参数的 15 个图块到带有 8B 个参数的 38 个图块不等，并观察到验证损失随着模型大小和训练步骤的增加而平稳减少（上排）。为了检验这是否转化为模型输出的有意义改进，我们还评估了自动图像配准指标（GenEval）和人类偏好分数（ELO）（下行）。我们的结果表明，这些指标与验证损失之间存在很强的相关性，这表明后者可以很好地预测模型的整体性能。此外，缩放趋势没有显示出饱和的迹象，这让我们对未来继续提高模型性能持乐观态度。

由于原始论文过大，我借助Kimi帮我总结了论文。

这篇论文的标题是《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》，作者是来自Stability AI的多位研究人员。论文主要研究了如何通过改进现有的噪声采样技术来训练Rectified Flow模型，以便在高分辨率图像合成中取得更好的性能。以下是对论文内容的概述：

摘要(Abstract)：

扩散模型通过逆转数据向噪声的正向路径来创建数据，已成为一种强大的生成建模技术，适用于高维、感知数据如图像和视频。

Rectified Flow是一种新型的生成模型，它以直线方式连接数据和噪声。尽管理论上更优越，但在实践中尚未成为标准做法。

本研究通过偏向感知相关尺度的噪声采样技术来改进训练Rectified Flow模型的方法，并展示了这种方法在高分辨率文本到图像合成中的优越性能。

作者提出了一种基于Transformer的新型架构，用于文本到图像的生成，该架构为两种模态（图像和文本）使用独立的权重，并在图像和文本标记之间实现双向信息流，提高了文本理解、排版和人类偏好评分。

通过大规模研究，作者证明了这种架构遵循可预测的缩放趋势，并且较低的验证损失与通过各种指标和人类评估测量的改进的文本到图像合成性能密切相关。

引言(Introduction)：

扩散模型通过训练来逆转数据向随机噪声的正向路径，与神经网络的近似和泛化特性结合，可以生成新的数据点。

扩散模型已成为从自然语言输入生成高分辨率图像和视频的事实上的方法。

为了提高这些模型的训练效率和/或加快采样速度，研究者们对更有效的训练公式进行了研究。

无模拟训练的流(Simulation-Free Training of Flows)：

作者考虑了定义从噪声分布到数据分布的映射的生成模型，这些映射以常微分方程(ODE)的形式表示。

为了提高效率，作者提出了直接回归一个向量场，该向量场在p0和p1之间生成概率路径。

Rectified Flow的流轨迹(Flow Trajectories)：

作者考虑了不同的流轨迹变体，包括Rectified Flow、EDM、Cosine和(LDM-)Linear。

文本到图像架构(Text-to-Image Architecture)：

为了处理文本条件图像采样，模型需要考虑文本和图像两种模态。作者使用了预训练模型来获取合适的表示，并描述了扩散骨干的架构。

实验(Experiments)：

作者进行了大规模研究，比较了不同的扩散模型和Rectified Flow公式，并展示了新公式的好处。

通过改进的自动编码器、改进的标题和改进的文本到图像骨干，作者提高了模型的性能。

结论(Conclusion)：

本研究展示了Rectified Flow模型在文本到图像合成中的潜力，并提出了一种新的时步采样方法，提高了性能。

作者还展示了Transformer基础的MM-DiT架构的优势，并进行了模型缩放研究，证明了验证损失的改进与模型性能的提高密切相关。

这篇论文的核心贡献包括：

对不同扩散模型和Rectified Flow公式进行了大规模、系统的研究，以确定最佳设置。

设计了一种新的、可扩展的文本到图像合成架构，允许在网络内双向混合文本和图像标记流。

对模型进行了缩放研究，并展示了可预测的缩放趋势。

在高分辨率图像合成中，作者提出的Transformer基础的MM-DiT（Multimodal Diffusion Transformer）架构是为了处理文本和图像这两种模态的数据。MM-DiT架构的核心思想是利用Transformer网络来同时处理文本和图像信息，并通过双向信息流来提高文本理解、排版和人类偏好评分。以下是MM-DiT架构的工作原理：