ChatGPT出来以后类似的问题很多,借这个话题聊一聊。
在讨论狼是不是来了之前,起码搞清楚这“狼”长什么样子。先说一个事实:ChatGPT不是通用人工智能(AGI)。
人工智能大致分为弱人工智能和强人工智能两种,和很多人的直觉不一样,二者的主要区别不在于能力的强弱而在于领域,弱人工智能只能在某个领域中表现出智能,譬如阿法狗,把人类棋手都下哭了很厉害,但也只会下棋,所以仍然是弱人工智能。
强人工智能也称为通用人工智能,顾名思义就是通用,能做更多领域的事。ChatGPT可以做知识问答,也可以编程,从这一点看,确实比其它的聊天机器人通用,但局限也很明显,目前还只能纯文本交互,不支持多模态。
譬如说ChatGPT目前就没法做看图说话。这不是刁难,现在人工智能发展已经达到了这个水平,输入一张图片,要模型输出描述性文本,术语叫“图-文生成”。由于同时涉及图像和文本两种不同类型,也叫多模态任务。
目前图-文生成以及更广域的多模态任务是现在人工智能领域的研究热点,已经产出可用成果,还记得2022年上半年非常热门的文-图生成模型DALL-E 2吗,这就是个多模态模型,而且使用了图-文生成的相关成果。
那么,介绍ChatGPT时经常提到的大统一模型是什么?其实说的是背后的Transformer模型,也叫自注意力模型。关系链是这样的:ChatGPT基于GPT模型,而GPT基于Transformer模型,准确来说,是基于Transformer模型的Decoder部分。
Transformer模型是典型的Seq2Seq结构,由编码器Encoder和解码器Decoder两部分组成,简单可以理解为前者负责语义理解,后者负责内容生成。GPT系列模型只使用了其中的Decoder部分,从理论上分析,GPT应该是生成能力较强,而理解能力相对较弱。但从使用来看,都说ChatGPT能够准确理解我们说啥,当然也可能是我们问的比较蠢,不需要啥理解能力吧。
为什么说Transformer模型是大统一模型呢?因为人工智能研究基本分为自然语言处理(文本处理)、图像处理和音频处理三大赛道,原本不同赛道的模型是老死不相往来的,也就是跨赛道没法使用,但Transformer打破了这个规矩。
Transformer最早是在自然语言处理大杀特杀,但只能处理文本,后来通过ViT等一众变体把火烧到了图像处理领域,逼得一众CNN原地画圈圈,还因此衍生出许多多模态的玩法。最近看了看论文,Transformer又开始和扩散模型抢地盘,忙得不亦乐乎。
当然,现在就说Transformer模型是大统一模型为时尚早,只能说有这个潜力。
接着说三个观点:
第一个观点,ChatGPT能引起这么大轰动,自身表现当然不俗,但更要靠同行衬托。人工智能会不会支配人类先放一放,公开的聊天机器人有很多,试一试就知道,能把话说利索了的目前就这一款。
引起轰动可能因为你是真厉害,也可能因为别人都太拉胯。你数学考70分回家可能会挨老爸棍子,但你告诉他第二名只有30分而且全班平均分不到10分,他就会送你一朵小红花。不过,这个时候就去讨论你这么聪明日后数学难题都被你统统破解了,数学家都失业了怎么办,人类又得有多无聊,那只能说四个字操之过急。
第二个观点,现在讨论ChatGPT处于什么阶段多少有点空想,前面说了,同行太拉跨,而完全体该是怎样谁也不知道,姑且假设春节档的MOSS是100分吧,ChatGPT还处于起步阶段的起步阶段。不过,我也还是认可ChatGPT就是里程碑。
为什么?因为希望是我们这个年代像钻石一样珍贵的东西,而ChatGPT给我们的就是希望,生成式AI革命能够发生在我们这一代人的希望。
很多人觉得人工智能的发展就像人类幼崽的成长,去年达到3岁智力水平,今年努力努力就能达到4岁。不是的,人工智能学有很多的分支,每一条分支都对如何实现智能有不同的见解。机器学习只是人工智能的分支之一,而深度学习又只是机器学习下的一条分支。每条分支要发展就要投人投钱投时间,点到某个时间点才发现此路不通,那么前面的投入就得统统打水漂,而且技术进步时间线还要跟着回滚。
我认为ChatGPT最大意义不在于对话有多流畅,而在于证明点了深度学习这条科技树是值得的,而且值得继续点下去。这一点相信让很多方面都放了心。
第三个观点,不管喜不喜欢,算法共存时代都已经到来。智能算法在潜移默化中便利生活,也会在潜移默化中改变生活。我就说一点,你看到我的这条内容很可能就是算法推给你的。往后算法对生活的影响只会更多。
最后说说我的态度。很简单三个字:
搞快点。