聊聊火出圈的世界AI大模型——Sora

2024-02-26 21:15:41 浏览数 (1)

Sora是什么?

在2024年2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”。据了解,通过文本指令,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。对于OpenAI视频生成模型的出现,业内其实早有预期,但仍有人评价称“比想象中来得更快”,亦有人振奋地表示“我们真的看到新工业革命来临”。像ChatGPT一样,Sora一经推出,在整个科技圈内掀起了一股新的浪潮,网上出现了比较多的Sora拆解分析博文,感兴趣的小伙伴可以自行搜索,本文主要用于对Sora进行科普并向大家介绍一些Sora相关的学习资源。

发布状态

Sora目前处于内测申请阶段,并没有对外开放,还没有真正进入内测,请不要相信任何账号买卖,课程培训!

官方地址

官网地址:https://openai.com/sora

论文地址:Video generation models as world simulators[1]

官方demo视频截图一览

Sora的6大优势

《每日经济新闻》记者经过对官方技术报告的梳理,总结出了 Sora 的 6 大优势:

(1)准确性和多样性:Sora 的显著特征之一是能够准确解释长达 135 个单词的长提示。它可以准确地解释用户提供的文本输入,并生成具有各种场景和人物的高质量视频剪辑。这一新工具可将简短的文本描述转化成长达 1 分钟的高清视频。它涵盖了广泛的主题,从人物和动物到郁郁葱葱的风景、城市场景、花园,甚至是水下的纽约市,可根据用户的要求提供多样化的内容。

(2)强大的语言理解:OpenAI 利用 Dall-E 模型的 re-captioning(重述要点)技术,生成视觉训练数据的描述性字幕,不仅能提高文本的准确性,还能提升视频的整体质量。此外,与 DALL·E 3 类似,OpenAI 还利用 GPT 技术将简短的用户提示转换为更长的详细转译,并将其发送到视频模型。这使 Sora 能够精确地按照用户提示生成高质量的视频。

(3)以图/视频生成视频:Sora 除了可以将文本转化为视频,还能接受其他类型的输入提示,如已经存在的图像或视频。这使 Sora 能够执行广泛的图像和视频编辑任务,如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。OpenAI 在报告中展示了基于 DALL·E 2 和 DALL·E 3 的图像生成的 demo 视频。这不仅证明了 Sora 的强大功能,还展示了它在图像和视频编辑领域的无限潜力。

(4)视频扩展功能:由于可接受多样化的输入提示,用户可以根据图像创建视频或补充现有视频。作为基于 Transformer 的扩散模型,Sora 还能沿时间线向前或向后扩展视频。从 OpenAI 提供的 4 个 demo 视频看,都从同一个视频片段开始,向时间线的过去进行延伸。因此,尽管开头不同,但视频结局都是相同的。

(5)优异的设备适配性:Sora 具备出色的采样能力,从宽屏的 1920x1080p 到竖屏的 1080x1920,两者之间的任何视频尺寸都能轻松应对。这意味着 Sora 能够为各种设备生成与其原始纵横比完美匹配的内容。而在生成高分辨率内容之前,Sora 还能以小尺寸迅速创建内容原型。

(6)场景和物体的一致性和连续性:Sora 可以生成带有动态视角变化的视频,人物和场景元素在三维空间中的移动会显得更加自然。Sora 能够很好地处理遮挡问题。现有模型的一个问题是,当物体离开视野时,它们可能无法对其进行追踪。而通过一次性提供多帧预测,Sora 可确保画面主体即使暂时离开视野也能保持不变。

Sora可能带来的影响

Sora 可能会对短视频剪辑、影视特效、自动驾驶、教培等多个行业带来的影响。

和Sora相关的开源项目

SoraWebui

SoraWebui 是一个开源项目,允许用户使用 OpenAI 的 Sora 模型使用文本在线生成视频,从而简化视频创建,并具有轻松的一键网站部署功能。

项目地址 :https://github.com/SoraWebui/SoraWebui

效果

successdeployjpg

演示网站:https://sorawebui.com/

大家可以先基于这套代码,把网线部署上线,然后等待 Sora 官方 API 上线。

因为目前暂时无法调用 OpenAI 的官方接口,所以还有个配套项目 FakeSoraAPI。FakeSoraAPI 基于 DALL-E 的接口,猜测 Sora 的接口参数和返回值,实现了一个假的 Sora API 来完成 Text to Video 流程。

大家如果自己要开发,也可以先基于 FakeSoraAPI ,把整个业务流程走通,等到 Sora 官方 API 上线之后就可以第一时间做一些小改动,就能够让自己的产品可以使用,而不是等到API上线了才开始开发。

开源地址为:https://github.com/SoraWebui/FakeSoraAPI

既可以自己基于开源代码一键部署,也可以使用部署好的 https://fake-sora-api.sorawebui.com/ 。

Sora案例和提示词

一个聚合Sora案例和prompt的网站:https://cn.videosora.ai

为什么称Sora为世界大模型?

Sora被称为世界模型的原因主要在于其能够模拟和交互整个物理世界的能力。世界模型(World Models)是一种用于强化学习和模型类强化学习的模型,它的主要目的是设计一个可以更新状态的神经网络模块,用来记忆和建模环境,实现输入当前观测和即将采取的动作,根据模型对世界的记忆和理解,预测下一个可能得观测和动作,并通过采取动作后,下一时刻的实际观测和预测的观测之间的差异,作为loss来自监督的训练模型。这种模型在机器人领域(包括自动驾驶)中非常常见,它们通常由多模态输入、感知、世界模型、未来预测和规划控制等步骤组成。

Sora的名称源于日文“空”(そらsora),以示其无限的创造潜力。这表明OpenAI开发Sora的初衷之一就是通过模拟和交互整个物理世界来展现其技术的无限可能性。Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。因此,Sora能够模拟一个虚拟的世界模型,这正是其被称为世界模型的原因。

其他

本文由山行编辑整理而来,如果对您有帮助,请帮忙点赞、关注、收藏,谢谢~

References

[1] Video generation models as world simulators: https://openai.com/research/video-generation-models-as-world-simulators

0 人点赞