从ChatGPT的短板看AI绘画的未来

Ai绘画在不同人眼里关注点可能完全不同，我研究AI，在我看来，AI绘画是多模态在技术和应用两方面都一举取得里程碑式的成果。这个成果不发展下去，实在是太可惜了，毕竟就我看来，多模态这条科技树点出AGI的可能性，远远高于一味死磕LLM。

什么是多模态？AI研究领域总的来说有两大热门方向，一个叫NLP，主攻文本，另一个叫CV，主攻图像。NLP和CV虽然都是AI下面的研究领域，偶尔也会有一些思想方法，甚至到模型一级的互相借鉴，但总的来说还处于各玩各的状态，也就是搞NLP的朝着一堆目标废寝忘食，搞CV的朝着另一堆目标废寝忘食，交集不能说没有，只能说聊胜于无。

这正常吗？不正常。

要理解这个不正常很简单。人工智能最终的目标是用人工的方式构造智能，目前已知最成功的智能体就是我们人类，回想一下，我们自己是怎么学到知识的？是首先把大脑切成两块，拿出其中一块死磕文本，然后再拿出另一块死磕图像吗？

肯定不是。

就说现在一个很火的AI课题叫NLG，简单来说就是文本生成，特别是ChatGPT刷屏以后，大家都抢着要搞NLG，方法基本都是先搞一个大的高质量数据集，然后搞LLM，最后通过指令对齐和/或RLHF微调。

用了许多新方法，但有没有跳出传统NLP的桎梏呢？没有，用NLP搞NLP，用CV搞CV，楚河汉界半点没碰。

为什么要打破楚河汉界？因为我们人类学习就不存在这条边界。

回想一下，我们人是怎样学文本生成的？我们管这叫另外一个名字，写作文。写作文最开始是怎样学的？不是给个题目要写三百四百五百字，那是后来的事，最开始我们是从看图说话学起的，把图上看到的东西用对应的文字表达出来，用机器学习这边的术语来说，人类做NLG任务，是使用了图像信息参与训练的。

一项任务同时使用了多个方向的信息和知识，这就是多模态。ChatGPT还有很多短板，其中之一就是没法做多模态，别看其它方面有的没的说话一副很专业的样子，看图说话是被小学一年级按在地上摩擦。

AI绘画就是典型的多模态。

AI绘画大致有两个阶段，第一个阶段是输入提示文本，也就是有些人说的“咒语”，第二阶段是模型按照咒语生成对应的图像。这里同时使用了NLP和CV，而且还有新交集。

理解提示文本的语义，这是NLP，生成特定语义的图像，这是CV，怎样把文本语义和图像语义对齐，这是新的研究领域。

多模态未来还有广阔的想象力。现实世界有很多信息是难以言传的，而又有大量的记录是以文字形成保存，想要训练一款真正理解现实世界全貌的AGI，文本信息和图像信息，我想缺了哪一样都不行。

人工智能 chatgpt 模型数据 AI绘画

0 人点赞