Imagen:文本到图像生成
还记得4月初刷爆AI圈的DALL.E 2吗?该AI算法能够从自然语言的描述中创建逼真的图像,还可以对现有的图片进行二次创作,生成高像素的图片:
但仅仅过了一个多月,谷歌推出了Imagen直接硬杠DALL.E 2。我们看一下这两个选手在统一命题下生成的图片效果:
盘旋牛绑架外星人(左图是Imagen,右图是DALL.E 2)
从生成的结果上说,两位AI选手各有千秋,其中DALL.E 2会生成偏向于漫画风格的图片。
如果输入“一对夫妻机器人在背景为铁塔下吃晚餐”,则会生成下图的图片:
二次创作
当然我们也可以拼接不同的词语,来生成不同的图片,进行二次创作:
网友的评论也很有意思,其中一个说:未来你看到的画家可能不是在画画,而是在写文字
还有一些网友觉得Imagen已经可以打败DALL.E 2了:
技术细节
从具体论文看出,Imagen是一种文本到图像的扩散模型,能够生成较为真实的图片。这是建立在大型的transformer语言模型上。
同时谷歌发现,在纯文本语料库上预训练的通用大型语言模型(如T5)在为图像合成编码文本方面出人意料地有效。不增加diffusion model的大小,而去增加语言模型的大小,生成的效果会更加逼真。
总结起来看,这篇文章主要有以下贡献点:
- 大型预训练冻结文本编码器对于文本到图像生成任务非常有效
- 扩展文本编码器的效果,比扩展diffusion model要更重要
- 引入一个新的高效U-Net体系结果,它具有更高的计算效率、更高的内存效率和更快的收敛速度。
- 模型在没有用到COCO数据集训练情况下,达到了最高的效果。
我们知道,一般的文本图像生成模型,往往会用到CLIP的预训练方法,这种方法主要用到成对的图像文本数据集进行预训练。但通常这种做法会比单独训练文本语言模型的数据量要少得多。
PS:DALL.E 2细节文章可以这里:
多模态逆天图片生成,OpenAI又一力作:DALL·E 2
因此Imagen主要利用了T5模型作为预训练模型,同时使用800GB的训练语料来进行预训练。预训练结束后,然后进行冻结,输入到Text-to-Image diffusion Model中,然后通过上采样,使得图片生成高清图像。具体的模型结果如下:
Diffusion model
扩散模型有两个过程,分别为扩散过程和逆扩散过程。
在扩散过程中,如上图所示从右到左( -> ),表示对图片进行加噪。这个过程符合马尔可夫过程,也即是从真实图片中不断加入噪声,最终得到噪声图片 。
而在逆扩散过程中,则需要从噪声图片 ,逐渐恢复得到原图,也就是通过训练网络,从 逐渐还原回
在对比DALL.E 2的效果中,谷歌的Imagen模型效果都表现得更好,且具有更高的真实性。
Imagen对比DALL.E 2
对比这两个较为出圈的模型,如果给出“一只马骑着一个宇航员”,这两个AI都会生成错误的图片:
而如果给出“一只熊猫在拉花”,则Imagen生成更符合文本的图片,而DALL.E 2会生成在咖啡中的熊猫拉花:
后续
图像生成工具一只是黑产可以利用的工具之一。OpenAI因此限制了DALL.E 2生成暴力、仇恨或成人图像。而谷歌还需要再做进一步的规范,来选择是否开源该AI工具。也希望后续,AI界能够带来更多令人惊艳的工具,同时真正投入到生产之中
我是leo,我们下期再见~