文本图像生成：谷歌Imagen硬杠OpenAI的DALL.E 2

Imagen：文本到图像生成

还记得4月初刷爆AI圈的DALL.E 2吗？该AI算法能够从自然语言的描述中创建逼真的图像，还可以对现有的图片进行二次创作，生成高像素的图片：

但仅仅过了一个多月，谷歌推出了Imagen直接硬杠DALL.E 2。我们看一下这两个选手在统一命题下生成的图片效果：

盘旋牛绑架外星人（左图是Imagen，右图是DALL.E 2）

从生成的结果上说，两位AI选手各有千秋，其中DALL.E 2会生成偏向于漫画风格的图片。

如果输入“一对夫妻机器人在背景为铁塔下吃晚餐”，则会生成下图的图片：

二次创作

当然我们也可以拼接不同的词语，来生成不同的图片，进行二次创作：

网友的评论也很有意思，其中一个说：未来你看到的画家可能不是在画画，而是在写文字

还有一些网友觉得Imagen已经可以打败DALL.E 2了：

技术细节

从具体论文看出，Imagen是一种文本到图像的扩散模型，能够生成较为真实的图片。这是建立在大型的transformer语言模型上。

同时谷歌发现，在纯文本语料库上预训练的通用大型语言模型（如T5）在为图像合成编码文本方面出人意料地有效。不增加diffusion model的大小，而去增加语言模型的大小，生成的效果会更加逼真。

总结起来看，这篇文章主要有以下贡献点：

我们知道，一般的文本图像生成模型，往往会用到CLIP的预训练方法，这种方法主要用到成对的图像文本数据集进行预训练。但通常这种做法会比单独训练文本语言模型的数据量要少得多。

PS：DALL.E 2细节文章可以这里：

多模态逆天图片生成，OpenAI又一力作：DALL·E 2

因此Imagen主要利用了T5模型作为预训练模型，同时使用800GB的训练语料来进行预训练。预训练结束后，然后进行冻结，输入到Text-to-Image diffusion Model中，然后通过上采样，使得图片生成高清图像。具体的模型结果如下：

Diffusion model

扩散模型有两个过程，分别为扩散过程和逆扩散过程。

在扩散过程中，如上图所示从右到左（ -> ），表示对图片进行加噪。这个过程符合马尔可夫过程，也即是从真实图片中不断加入噪声，最终得到噪声图片。

而在逆扩散过程中，则需要从噪声图片，逐渐恢复得到原图，也就是通过训练网络，从逐渐还原回

在对比DALL.E 2的效果中，谷歌的Imagen模型效果都表现得更好，且具有更高的真实性。

Imagen对比DALL.E 2

对比这两个较为出圈的模型，如果给出“一只马骑着一个宇航员”，这两个AI都会生成错误的图片：

而如果给出“一只熊猫在拉花”，则Imagen生成更符合文本的图片，而DALL.E 2会生成在咖啡中的熊猫拉花：

后续

图像生成工具一只是黑产可以利用的工具之一。OpenAI因此限制了DALL.E 2生成暴力、仇恨或成人图像。而谷歌还需要再做进一步的规范，来选择是否开源该AI工具。也希望后续，AI界能够带来更多令人惊艳的工具，同时真正投入到生产之中

我是leo，我们下期再见~

0 人点赞