AIGC是现在很火的一个概念,每天都有新闻,很多人都在谈论,但昨天听机工社郭老师直播我才突然意识到,“什么是AIGC”本身反而介绍很少,有一点名可名非常名的味道。我专门找了一下,甚至很多聊AIGC的自媒体也只是一知半解,可能觉得AIGC和AI是一回事,也可能觉得和ChatGPT是一回事。
对吗?不对,但也不全错。
道理很简单,如果AI和AIGC是一回事,为什么要起两个名字,换个马甲好圈钱吗?当然不是。百度在2017年就喊出ALL IN AI的口号,今年3月才推出文心一言,网上吐槽很多,其中就有说百度这些年都是拿着AI的概念圈钱。这里不多谈,只说一点,虽然都是AI,但此AI非彼AI。
客观地说,不管百度怎样,在AI方面确实搞了一些东西的。譬如搞了一个飞桨框架,还搞了无人驾驶。李彦宏去年7月在百度世界大会上还说无人驾驶是“人类有史以来创造价值最大的颠覆式创新”。不过呢李总今年5月又有新说法,这次是“大模型改变世界”。不管怎样吧,无人驾驶是AI,大模型当然也是AI,但两者显然不是一回事。
为什么又说不全错呢?虽然不是所有AI都叫AIGC,但毕竟关系密切,简单来说AIGC就是用AI来完成GC任务。这是一类技术,其中的一款产品叫ChatGPT。
不过,问题没有解决,GC是什么?怎么和AI搞在了一起?现在还有一个搞在一起的概念也很火叫大模型,这都是些什么呢?
这还得从AI说起。
AI这个词都懂,是英文人工智能(Artificial Intelligence)的首字母缩写,但是,“人工智能”到底是指什么,我们真的懂了吗?如果要你给出一个定义,你真的能给出来吗?
我们对“人工智能”的印象,实际很多是源于科幻作品,内容可能大不相同,但对于AI的刻画却有一个共同点,那就是“类人”。幻想作品都有这个特点,不管叫机器人也好,叫外星人也好,叫半兽人也好,无论外表有多科幻、魔幻、奇幻,脑袋里面一概长着一颗人类的脑子。
所以,很多人以为人工智能就是用人工方法实现一颗人类的脑子。
这又是一个不全是误会的误会,妨碍我们真正理解真实的人工智能。人工智能的起点确实是用人工方法实现智能,而且人工智能确实有那么一个研究方向,是从仿生学的角度实现一颗人类的脑子,叫类脑智能。但是,这只是人工智能诸多研究方向中的其中一条,而且和我们要谈的AIGC基本没啥关系。
人工智能研究的问题非常广,手边正好有人工智能教材,随便摘几个:自然语言处理、博弈论、自动规划、知识表示、机器人学,这还是看着沾点边的问题,要再往基础理论的部分去,那都是谓词逻辑、A*搜索、退火算法等等让计算机专业都觉得半懂不懂的名词。
原因不复杂。人工智能有繁多的子学科,而且这些子学科不是一脉相承,而是满天星斗。
从学科角度看,人工智能就是一个大箩筐,只要和“智能”沾边都可以往里面装。其中有一门子学科叫机器学习,机器学习是一个小一点的箩筐,里面又能分出神经网络、决策树、支持向量机等等分支。我们现在熟知的深度学习、大语言模型,就是从人工智能下面的机器学习下面的神经网络分支出来的。
总而言之,人工智能绝不像很多人以为的,是大家齐心协力搞一个模仿人类的人工大脑,先模仿三岁的大脑,然后是四岁、五岁、十岁这样上来。人工智能不是一条道走到黑,甚至不是同一个问题用不同方法来解决,而是划分了好多不同的问题领域,每个问题领域里面又有不同流派搞出不同方法忙得不亦乐乎。
为什么会这样?我认为是有两道大难题。
第一道难题就是怎样定义“智能”。
智能是什么?感觉谁都知道,但谁也说不清楚。怎么办呢?依照各自理解给出不同定义,再由定义衍生出问题,最后再八仙过海解决问题。问题本身就五花八门了,解决问题的思路和方法那更是千奇八怪,结果人工智能可不就成了一个大箩筐。
第二道也是最难的问题,就是没有一种方法能包打天下。
我们把实现智能根据不同理解拆解成不同问题,一种方法在这个问题上表现不错,但在另一个问题上表现不佳,甚至压根没法表现。
再简单一点,现在无论哪种人工智偏科特别严重,用来下棋的AI再厉害也没法用来开车。很多媒体都爱说现在AI又相当于多少多少岁的人类,这种说法有一定误导性,现在人工智能的发展压根不是人类一岁一岁长上去的模式,很可能这边已经专精了,那边还像个弱智。
就拿ChatGPT来说,ChatGPT基于大语言模型(LLM),也就是我们俗称的“大模型”,属于自然语言处理领域,说人话来就是用AI来处理文本任务。所以别看ChatGPT文字聊天风生水起,看图说话照样还是个人工智障。
但就这已经是进步了,过去自然语言处理同样画地为牢,又细分出一堆的子任务,比如文本分类、词性标注、实体抽取等等。每种任务又各自搞出一堆的不同模型,A任务下的模型是没法干B任务的事的。从这个侧面就能一窥人工智能的研究现状。
为什么现在学术界疯狂点赞大模型?就是因为大模型打破了自然语言处理画地为牢的现状,一款模型就能够用很多任务上使用,学术界管这种模型叫大一统模型。开始大家不太清楚大一统模型应该怎么实现,现在发现模型参数上去了,也就是把模型做大了,模型能力也会跟着上去。这可能是实现大一统模型的可行路径。
那处理图片的领域有没有类似的大模型呢?人工智能把处理图片的任务统称为计算机视觉(Computer Vision),现在应用也挺多的,无人收费停车场用来识别车牌号的技术就是其中之一。不过,CV领域参数大的模型有不少,但大一统模型还暂时没有。
所以,现在我们说“大模型”,其实指的都是大语言模型,用来处理文本任务。不过,哪怕是在自然语言处理,大语言模型也仍然没有真正做到大一统,只能说大家看到了希望。
一句话总结,现实的人工智能是任务导向,是把“智能”拆解成不同的任务,再尝试不同的方法解决。明白了这个,也就明白人工智能,AI焦虑应该也能有所缓解。
任务导向的人工智能与我们的想象确实也很有一段距离,不过,这是一种务实的做法。有时候发现某项任务难度太大,单用一款AI模型没法完成,那就会这项任务把进一步拆解成多个子任务。自然语言处理碎成一地的现状就是这么来的。
不过,大语言模型毕竟让大家看到了大一统希望,所以现在提了一个新的概念叫AGI,有的翻译为强人工智能,有的翻译为通用人工智能,简单来说就是颠覆过去那种模型不行就拆任务的范式,尽可能只用一款模型搭配其它花里胡哨的办法来解决问题。
最后说说AIGC。AIGC全称是Artificial Intelligence Generated Content,直译为人工智能生成内容。听着很科幻其实不复杂。现在网上有很多内容生产者,譬如说我写了这篇文章,我是内容生产者,你在文章下留言评论,你也是内容生产者。内容生产者的身份略有不同,行话叫PGC和UGC,但都有一个特点:都是人类。把人类换成人工智能生产内容,这就是AIGC。
内容生产也是任务,人工智能称为生成任务。现在常见的AIGC有三种,一种是AI绘画,这是图片生成任务。一种是AI歌手,这是音频生成任务。一种是AI聊天,这是文本生成任务。正如我们前面说的,这些生成任务背后又各自对应一堆不同的AI模型。
有人可能觉得不对,说你看文心一言,这不就是只用一款模型既能聊天又能绘画还能发音频吗?
前面说的是AI技术,文心一言是AI产品。要实现这种产品有两种技术思路。一种是缝合怪,还是一种任务一款模型,但统一出口分别调用。用户来聊天了,我调用A模型,用户来画画了,我调用B模型。文心一言就是这个思路。网上很多人用松鼠桂鱼来证明文心一言不行,公平地说,只是证明了负责图像生成的模型不行。
这种水是水油是油的解决方案实现简单,但肯定不够优雅。更优雅的方式是多模态生成,简单来说就是用一种模型完成多种文本、图片等跨多种模态的生成任务。譬如说GPT-4的看图说话,我输入一张梗图,你告诉我笑点在哪里。AI绘画其实也是一种多模态生成,我输入文字描述,你生成对应的图片。多模态生成听着更顺耳,但难度也大得多。