Summary 简介
这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。
这个老哥可能是除了这篇论文的另一个作者(现在在Open AI工作)之外最懂Diffusion Transformer的人了,非常值得关注。
有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝,短短一年时间就变成了Sora这怪物模型的理论基础。
本篇正文共 1891 字,仔细阅读约 5 分钟
以下是我对Sora技术报告的解读,其中包含了一些可能并不准确的猜测。首先,我非常感谢团队分享了极为有价值的见解和设计决策——Sora确实令人惊叹,它将彻底改变视频生成领域。
我们目前所了解到的情况如下:
- 架构:Sora基于我们的扩散变换器(Diffusion Transformer,简称DiT)模型构建,该模型已发表在2023年国际计算机视觉会议(ICCV 2023)上。简单来说,它是一个结合了变换器(Transformer)主干的扩散模型:DiT = [变分自编码器(VAE)编码器 视觉变换器(ViT) 去噪扩散概率模型(DDPM) VAE解码器]。根据报告,这个模型似乎没有太多额外的复杂设计。
- “视频压缩网络”:这看起来就像是一个在原始视频数据上训练的变分自编码器(VAE)。在实现良好的时间一致性方面,标记化(Tokenization)可能扮演着关键角色。顺便提一下,VAE本质上是一个卷积网络,所以从技术上说,DiT实际上是一个混合模型。;)
当Bill和我参与DiT项目时,我们并未专注于创新(详见我之前的推特