从ChatGPT的短板看AI绘画的未来

2023-09-09 09:20:55 浏览数 (1)

Ai绘画在不同人眼里关注点可能完全不同,我研究AI,在我看来,AI绘画是多模态在技术和应用两方面都一举取得里程碑式的成果。这个成果不发展下去,实在是太可惜了,毕竟就我看来,多模态这条科技树点出AGI的可能性,远远高于一味死磕LLM。

什么是多模态?AI研究领域总的来说有两大热门方向,一个叫NLP,主攻文本,另一个叫CV,主攻图像。NLP和CV虽然都是AI下面的研究领域,偶尔也会有一些思想方法,甚至到模型一级的互相借鉴,但总的来说还处于各玩各的状态,也就是搞NLP的朝着一堆目标废寝忘食,搞CV的朝着另一堆目标废寝忘食,交集不能说没有,只能说聊胜于无。

这正常吗?不正常。

要理解这个不正常很简单。人工智能最终的目标是用人工的方式构造智能,目前已知最成功的智能体就是我们人类,回想一下,我们自己是怎么学到知识的?是首先把大脑切成两块,拿出其中一块死磕文本,然后再拿出另一块死磕图像吗?

肯定不是。

就说现在一个很火的AI课题叫NLG,简单来说就是文本生成,特别是ChatGPT刷屏以后,大家都抢着要搞NLG,方法基本都是先搞一个大的高质量数据集,然后搞LLM,最后通过指令对齐和/或RLHF微调。

用了许多新方法,但有没有跳出传统NLP的桎梏呢?没有,用NLP搞NLP,用CV搞CV,楚河汉界半点没碰。

为什么要打破楚河汉界?因为我们人类学习就不存在这条边界。

回想一下,我们人是怎样学文本生成的?我们管这叫另外一个名字,写作文。写作文最开始是怎样学的?不是给个题目要写三百四百五百字,那是后来的事,最开始我们是从看图说话学起的,把图上看到的东西用对应的文字表达出来,用机器学习这边的术语来说,人类做NLG任务,是使用了图像信息参与训练的。

一项任务同时使用了多个方向的信息和知识,这就是多模态。ChatGPT还有很多短板,其中之一就是没法做多模态,别看其它方面有的没的说话一副很专业的样子,看图说话是被小学一年级按在地上摩擦。

AI绘画就是典型的多模态。

AI绘画大致有两个阶段,第一个阶段是输入提示文本,也就是有些人说的“咒语”,第二阶段是模型按照咒语生成对应的图像。这里同时使用了NLP和CV,而且还有新交集。

理解提示文本的语义,这是NLP,生成特定语义的图像,这是CV,怎样把文本语义和图像语义对齐,这是新的研究领域。

多模态未来还有广阔的想象力。现实世界有很多信息是难以言传的,而又有大量的记录是以文字形成保存,想要训练一款真正理解现实世界全貌的AGI,文本信息和图像信息,我想缺了哪一样都不行。

0 人点赞