自带魔法棒的 DALL·E | 一文图解热词

2021-01-12 11:03:42 浏览数 (1)

CHUNFANG:大家最近在聊的热门词儿 DALL·E 是什么?具备什么功能?

大铮:DALL·E 能按照文字的描述,画出十分自然的图像。

目前的模型对于选词比较敏感,官方释出的例子是类似完形填空的形式,给句子中的名词位置挖了空,并提供了候选的词汇。

我们选择了一个拟物的句子来展示DALL·E的能力。我们来看几个例子:

第一个句子是:“一个长得像猪的闹钟”。

于是,DALL·E 生成了这样的图片:

第二个句子是:“一个长得像猪的手提包”:

接下来我们把 “猪” 换成 “桃子” :

最后我们看看 “桃子风格的,皮质扶手椅”:

在这里我们看到了一件有意思的事情:对于闹钟,手提包这些生活中本身就有各种形式的物体,DALL·E会生成形状各异的物体,且都很好得捕捉到了物体本身的特性。

比如闹钟的表盘和手提包的背带。而我们却没有看到长得像桃子的皮质扶手椅,DALL·E在这里采用的外观特性是桃子特有的粉色。

除了拟物,DALL·E 可以做的还有更多,画油画,设计服装,布置房间,画emoji,等等。mixlab对此有更多介绍,或者你可以直接在openAI的官网试一试。

https://openai.com/blog/dall-e/

CHUNFANG:DALL·E 算是横空出世吗?

大铮:DALL·E不是一个架空的作品,Openai在去年发布了GPT-3(见跨模态专栏第一期)和Image GPT两个模型,各自分别能完成多种类的文本任务以及补全图像中的空缺部分。

DALL·E的模型在技术上来讲和GPT-3应该是大同小异的,同样采用了Transformer模型。因此这个作品更像是在秀肌肉(当然我得承认肌肉线条非常优美)。

DALL·E有120亿的参数,但和GPT-3的1750亿相比相形见绌,但这不是因为Openai没有这个财力去训练一个更大的模型,而可能是收集能够用来的训练的“图片-文本”对的成本很高(Openai为此收集了4亿个“图片-文本”对,文章的作者在Reddit的问答汇总也提到“这大概是最困难的部分”),远没有收集大量文本来的容易,而愈大的模型意味着愈大的训练样本数量。

CHUNFANG:DALL·E有什么惊人之处?

大铮:在介绍DALL·E时我就惊讶于ta能够很聪明地捕捉到每个事物的特性,并且合理地组织在了一起。

这个能力在之前一直被认为需要更多的人类常识的参与,光给模型看一大堆样本是做不到的。但事实上DALL·E做的很好,仿佛是真的理解了我们的真实世界。

CHUNFANG:但是有失败的案例吗?

大铮:当然哈哈哈。因为之前就说这是一项秀肌肉的工作,即使这些例子都是精挑细选出来的,但只要花点时间还是能够找出一些没做对的合成图像。

比如“印着蓝色草莓图样的拿铁咖啡”:

CHUNFANG:还有哪些关于DALL·E有趣的讨论?

大铮:外国网友真的是很好玩,我来贴两个:

→ 它生成来美丽的紫色路标。我建议我们将所有路标更改为紫色!

→ 我们用深度学习发现了魔术。即使知道它是如何工作的,它仍然像是魔术。“给我一把像牛油果一样的椅子。不,比这还要毛绒绒的……”

最后说说我个人的看法:

DALL·E给我们展现的效果无疑是非常震撼的,有了合理的创造能力的加持,未来能被设计师用作创作的素材库也是很有可能的。相比较于现有的搜索引擎,DALL·E更像是一个创造引擎,这在以前是没有过的。

设计:朱柏丞

编辑:chunfang

- END -

0 人点赞