看到Imagen这个字眼,那不是前阵子很火的文本图像生成圈的一个模型吗?这不,谷歌在10月份基于这个模型的基础上,发布了能够生成短视频的Imagen Video模型。
Imagen Video,是基于文本条件生成视频的模型。给定相应的文本提示,在基于“视频生成模型”和“交错时空视频流超分辨率模型”,Imagen Video能够生成高清晰度的视频。
在论文中,主要描述了如何构建一个高清晰度的文本视频生成模型。比如,在特定分辨率下,如何选择完全卷积时域和空间超分辨率模型,以及如何选择扩散模型中的参数。
同时把之前的文本图像生成的扩散模型,迁移到文本视频生成模型上。最后使用分类器进行指导,以实现快速和高质量的采样。
在实验中发现,Imagen Video仅能够生成高保真视频,而且具有高度的可控性和世界知识,包括能够生成各种艺术风格的视频,3D结构的视频,或者是生成特定的动画。
先来看看该模型生成的效果:
网友评价说:Imagen Video虽然是令人兴奋,但也让他对创造和内容的未来感到紧张。
级联扩散模型
首先来看看,通过上采样,该模型逐步把低分辨率提升到高分辨率,比如输入“在书本中,豆芽进行生长”
Imagen Video使用级联扩散模型生成高分辨率视频:本质上就是说,单独一个模型不能够生成高分辨率,但是我可以堆叠多个小模型,来完成这一个目标
- 第一步:获取输入文本提示,并使用T5文本编码器将其编码
- 第二步:基于视频扩散模型生成一个16帧的视频,分辨率为24*48,每一秒3帧;然后利用时域超分辨率模型和空间超分辨率模型,以1280×768分辨率和每秒24帧的速度进行上采样,并最终生成128帧的视频,共5.3秒。
Imagen Video使用Video U-Net架构捕获空间保真度和时间动态。视频扩散模型中使用了temporal self-attention,而时域卷积则用于时域和空间超分辨率模型。
具体的细节模型结构图如下所示:
- 输入部分是文本Prompt
- 文本编辑器采用T5-XXL
- 3个SSR(空间超分辨率模型)
- 3个TSR(时域超分辨率模型)
- 上面的所有模型加起来参数达到116亿
用于训练这些模型的数据通过空间大小调整和跳帧处理到合适的空间和时间分辨率。在生成时,SSR模型提高了所有输入帧的空间分辨率,而TSR模型通过填充输入帧之间的中间帧来提高时间分辨率。
级联模型的一个优点是,每个扩散模型都可以独立训练,从而可以并行训练所有7个模型。(谷歌有钱就是可以为所欲为的)
此外,论文中提到的超分辨率模型是通用的视频超分辨率模型,它们可以应用于真实视频或生成模型中的样本,而不是本文中介绍的模型。
在细节的处理上,模型能够还原不同艺术风格下的动图。比如“猫吃食物的整体动作”
从实验中可以进一步看出,Imagen Video可以生成比较完美的3D结构的视频:
存在问题
目前AI技术,在文本图像圈和视频生成圈已经爆火起来,近9个月以来,通过扩散模型已经发布了很多有趣的AI算法:
- DALL.E2(2022 4月),文本图像生成
- Imagen(2022 5月),文本图像生成
- Stable Diffusion(20228月),文本图像生成
- Make-A-Video(2022 9月),文本视频生成
- Imagen-Video(2022 10月),文本视频生成
但是扩散生成模型的飞速发展,也会给社会带来不同层面的影响。视频生成模型可以用来对社会产生积极影响,例如通过放大和增强人类的创造力。然而,这些生成模式也可能被滥用,例如生成虚假、仇恨、明确或有害的内容。因为在Imagen Video中已经采取了多个步骤来最小化这些问题,例如在内部试验中,输入文本提示过滤和输出视频内容过滤。
然而,仍然存在一些重要的安全和道德挑战。Imagen Video及其冻结的T5-XXL文本编码器是根据有问题的数据进行训练的。
在内部测试表明,许多明确和暴力的内容可以被过滤掉,但仍存在社会偏见等观念,难以检测和过滤。因此谷歌暂时还不开放Image-Video的使用。
好了,本期就到这里了,我是leo,欢迎关注我的公众号/知乎“算法一只狗”,我们下期再见~