ChatGPT真的很火,真的。虽然ChatGPT两个月前发布就已经让我大受震撼,但年后突然涌出一大批ChatGPT的介绍文章,一看发布者,居然全是荐股号、投资号,再次让我大受震撼。
ChatGPT怎样拉动AIGC的投资价值,又会让谁先丢饭碗,高端话题留给专业人士。我研究人工智能,不过,值得说道的地方也看到不少。有文章出现了ChatGBT、ChatGTP等等名字,不知道是笔误还是把G*P当成辈分。有文章说“基于ChatGPT-3.5模型”,这是没搞清背景,以讹传讹结果把ChatGPT和GPT-3.5合二为一。会者不难,就怕不会。更重要的是,大多数文章有意无意都把聚光灯打在了ChatGPT身上,读完一种感觉:OpenAI玩战术憋大招,突然就点出了谷歌未敢设想的道路。
这是误导。我知道,讲故事要有戏剧张力,一蹴而就很有张力,但不是现实,要研究人工智能,只能冰冻三尺非一日之寒。再炸裂的新闻,背后一定都能回溯出一条漫长曲折的发展路线。ChatGPT正是典型代表。
谷歌这次有点措手不及,但原因和很多文章说的不太一样。很多人以为谷歌漏点一条科技树,现在要被偷水晶了。不是,最早搞出高水平对话模型的,可能正是谷歌。很多人以为ChatGPT是“黑科技”,OpenAI瞒着所有人自己蹲家里憋出来的。不是,ChatGPT基于GPT,GPT基于Transformer,而这个Transformer不是别人正是谷歌家的研究成果,而且5年前就公开发表了论文,你感兴趣现在就可以上Arxiv查看。
ChatGPT头顶的光环太耀眼了,光环下的误传三言两语反而讲不清楚。无论是为了正确做研究,还是为了正确做投资,我想,都有必要捋一捋ChatGPT前世今生的现实版本。
GPT产品线
先从ChatGPT的名字说起。这个名字有讲究,是由Chat GPT两部分组成,意思是用GPT模型来做Chat(对话任务)。OpenAI用GPT模型构建了一条产品线,即使未来发布新产品,名字可能会叫某某GPT,而肯定不是GBT或者GTP。
GPT是什么意思呢?在网上直接搜“GPT”,大概会得到两类结果。一类叫GUID Partition Table,是一种磁盘分区表,也简称GPT。另一类才是我们下面要讲的GPT模型。
GPT是一款基于Transformer的深度模型,也不是什么最近才憋出来的隐藏大招,早在2018年OpenAI就发布了GPT模型,然后一直在迭代,目前已经迭代了三代半,分别叫GPT-1、GPT-2、GPT-3和GPT-3.5。同时,OpenAI还围绕GPT不断打造产品线,也就是基于GPT模型构建不同领域的解决方案。本文的主角ChatGPT,就是基于GPT-3.5模型打造的智能对话产品。
我们关注AI,更多关注的是OpenAI推了什么新技术,但OpenAI还有另一个值得关注的点,产品意识。OpenAI一直固执地以GPT模型为核心打造产品线,从技术的角度看,GPT并非一直是最优选择,但现在回头再看,这是OpenAI的阳谋。用投资的话讲,OpenAI是以GPT模型在构筑护城河。
GPT模型是怎样发展到今天的呢?还得从谷歌家的Transformer说起。
Transformer
Transformer和OpenAI没啥关系,但和GPT大有关系。有件事很有意思,现在天天都说ChatGPT可能要干掉谷歌,不过,如果当年谷歌没有发布Transformer,今天可能也不存在什么ChatGPT。
很多文章对Transformer只是一笔带过,顶多也就提一句“GPT是基于Transformer”。但我认为,Transformer才是一切的起点。搞不清楚Transformer,就搞不清楚GPT,最后也就搞不清楚ChatGPT。
一切还要从一篇题目非常中二的论文说起。2017年,谷歌研究团队发表了一篇的论文,题目《Attention is All You Need》,提出一款基于自注意力机制的深度模型框架,名叫Transformer。
这篇论文现在名气非常大,已经有点中本聪的那篇创世论文的意思。但在当时,我和很多人一样,都觉得这篇论文只是谷歌和另一家研究团队,当时叫FAIR,也就是脸书的AI研究团队怄气才写出来的东西。
问题的根子,出在RNN身上。深度学习是当前人工智能最热门的研究分支,有两大研究方向,一个叫自然语言处理(NLP),主要是做文本,一个叫计算机视觉(CV),主要是做图像。2017年以前,深度学习非常单纯,做文本就用RNN模型,做图像就用CNN模型,这是当时深度学习的楚河汉界。
为什么?因为文本是序列信息,也就是你得一个字一个字地读下去,才知道这段话说的是什么意思。循环神经网络(RNN)用循环来模拟“逐字读”这个效果,CNN没有这个本事。
但是,RNN成也循环败也循环,循环太费时了。于是,FAIR开始琢磨怎样能用快得多的CNN来做文本。我想,FAIR琢磨这事还有另一个原因,Yann LeCun,对,就是现在炮轰ChatGPT啥都不是的那位Yann LeCun。Yann LeCun有两重身份:CNN之父、FAIR首席科学家。CNN之父作为首席科学家领导FAIR研究如何用CNN跨界做文本,听着多么顺耳,当然,这是我瞎猜。
不管怎样,FAIR还真的找到了办法,2017年5月发表论文《Convolutional Sequence to Sequence Learning》。CNN成功跨界,当时学界也是大受震撼。说真的,虽然都说春江水暖鸭先知,但这些年AI领域大受震撼的事太多,圈内人早都震麻了。正如开篇所说,我知道ChatGPT很热,但热到喷火的地步,是直到荐股号投资号纷纷改聊ChatGPT的技术原理才有真切感受。
FAIR以为自己是主攻,没想到很快变成了助攻。仅仅一个月后,对家的谷歌研究团队发表了那篇《Attention is All You Need》,标题不仅中二,而且还有正面刚的意思。
这里“Attention”是指深度学习中的一个机制,中文译作“注意力(机制)”。FAIR用CNN做序列文本,其实是用“CNN 注意力”的混合结构。现在谷歌直接说,“有注意力就够了,别整那些没用的”。你品,你细品。当然,这也是我瞎猜。
抛开八卦不谈,对ChatGPT、对NLP、乃至对整个AI领域,《Attention is All You Need》最大的贡献就是提出了Transformer。
过去深度学习的研究边界是十分清晰的,不但NLP和CV楚河汉界,连NLP下面的不同子任务也圈地自萌。Transformer打破了这些条条框框,现在学界开始倡议,应该把这类模型称为“基础模型”。
最开始Transformer只是在NLP领域大杀特杀,后来通过ViT等一众变体,把火也烧到了CV领域,正在和原来的扛把子CNN打得有来有回。Transformer是第一款不用大改就能即做文本又做图像的模型,所以,很多人看好它,称之为“大一统模型”。注意,这里说的“大统一模型”和强人工智能(AGI)是两个意思。过去深度学习是用不同模型做不同事情,而大一统模型则是用一种模型去做全部事情。
还有一件事,对现在NLP的研究产生了颠覆性影响,也就是最近常提到的“范式改变”,但在当时来说可能只是无心插柳。插的“柳”就是Transformer的一项“隐藏属性”,元优化能力。
目前学界已经公认,基于Transformer构建的语言模型,一旦模型参数规模超过某个阈值,就会出现“能力涌现”现象。过去一般认为,模型的参数规模和能力呈正比关系,也即“缩放定律”。但现在发现,大模型能够打破缩放定律,只要参数突破临界值,就会出现一些小模型所不具备的新能力。有一篇论文絮絮叨叨用好长一段话来描述能力涌现,用我们的话其实就一句,那就是量变可以达到质变。
为什么会出现能力涌现?这是一项非常前沿的研究课题,答案肯定就出在Transformer里面,但具体是什么学界还在苦苦寻觅。有一项研究提出观点,说这是因为Transformer具备元优化能力,不需要显式调用传统的梯度下降,也能够实现梯度下降类似的优化效果。这可能正是ChatGPT让人大受震撼的关键。
从各种意义上看,谷歌的Transformer都是GPT模型的基石。现在,基石已经铺就,GPT可以开始它坎坷而璀璨的旅程了。