这俩月我一直在想俩问题,一个是为什么这俩月突然多了这么多国产LLM,另一个是这么多国产LLM有什么区别。
这俩问题想的不少,说得好的不多,姑且说说。
去年底ChatGPT刚出来的时候,那时候国内NLP甚至整个AI圈子的热门话题可以归纳成两个字,绝望。ChatGPT很震撼,而且是与过去AI产品完全不同的震撼。过去的AI产品,譬如说AI绘画,往往是圈外很震撼,圈内觉得也就那样。
原因很简单,信息差,圈内是看着AI产品从不行到不怎么行最后一步一步发展到很行,你见证了这个过程,最后结果对你的震撼效果多半是要减半。不过,AI产品梳洗打扮的过程圈外通常是不怎么了解的,等能“破圈”时已经经过了漫长的改进,初见自然惊为天人。
但是,ChatGPT不一样。圈外当然依旧惊为天人,但这一次,圈内比圈外更为震惊。不是不相信AI能做到这种地步,而是不相信现在就能做到这种地步。包括AI界的扛把子谷歌。
ChatGPT推出来最受震撼的是谁?是谷歌。谷歌不仅仅是站在AI发展的浪潮之巅,而是浪潮本身。可是,谷歌这次狼狈不堪。现在谷歌张开闭口都AI安全伦理,不过知道的都知道,这是给狼狈不堪换了个体面点的说辞。
有多狼狈?过去谷歌为什么是AI界的扛把子,不是说什么好点子都是谷歌先想出来的,而是追得很快,哪怕被别人先想出来好点子,谷歌也能后来追上,在短时间内搞出一个力大飞砖的SOTA。
但是这次不一样。谷歌很狼狈,ChatGPT是22年12月发布,谷歌直到23年5月,也就是用了整整半年,才搞出来一个看起来总算有点谷歌样子的Palm 2。
为什么说“看起来总算有点谷歌样子”?因为前面的Bard不成样子,Palm 2虽然还没用上,不过学GPT-4也放了一份同样90来页的技术报告。有意思的是,每个人读完这篇技术报告似乎感觉都不同,当时我看了一堆自媒体发的标题叫”超越GPT-4“,也有不少人觉得底气不足。我的感觉是值得期待。
说Palm 2”超越GPT-4“是自媒体博眼球,谷歌技术报告说的很清楚,PaLM 2 outperforms PaLM across all datasets and achieves results competitive with GPT-4,意译就是打得有来有回,再看看测试结果,确实没能再现SOTA刷磅的王霸之气。不过,接受了OpenAI领跑LLM并且把第二名甩开很远的人设以后,谷歌用半年时间就能重新与OpenAI打得有来有回,多少也有了一点”追得很快“的味道。
当然了,最近又有报告说Palm 2实测性能并不怎样,甚至输给了开源的Vicunna-13B,在一众LLM里面只能算”老六“。到底怎样还是实际用了再说。
说了这么多题外话,无非是想说明为什么国内NLP甚至整个AI圈子当时看了ChatGPT感觉很绝望:如果谷歌倾尽全力用半年时间来追,最好的结果也就只是有来有回,那么请问,在座各位距离追上谷歌又还有多远呢?
门槛很高。所以当时很多人包括我的认为,以后NLP不用玩了,都围一块坐在台下看几位大佬表演就好。结果呢?这俩月的事大家都知道了,不但不是不用玩,而是都来玩。一些以前分明不是搞AI的企业,居然这波也说要推自己的大模型。
事实啪啪打脸。这脸打得怎么说呢?痛快。
当然了,大家第一个问题就是,为什么LLM的门槛忽然就降低了呢?还没有最终定论,不过,我想主要是两个原因:开源模型和开源数据。
LLM的门槛主要是就是人工智能的三要素:算法、算力和数据。
算法本身算不上门槛。我前面写过一篇文章,站在现在这时间点上回看,ChatGPT给我们带来的到底什么是最重要?是可行性。LLM这条路走得通。哪怕OpenAI啥也没说,光有这个结论也就足够了。更何况现在已经出了一吨的论文。
总的来说,ChatGPT的核心算法就是LLM RLHF。现在也有不少论文说RL不是必须的,不过,照做也没啥坏处。算法的门槛总是随着时间越来越低,再说现在训练框架都有现成的,越是略等于无。
接着是算力。训练LLM得有非常高的算力,这是硬门槛。不过,说到底也就是钱的事。ChatGPT爆火以后,LLM就成了23年资本的风口。什么叫风口?别说你想搞类ChatGPT的LLM,就算你不想搞也得想办法擦点边。对于宣布搞自家LLM的大企业来说,最不差的恐怕就是钱了。何况现在还有一堆LLM的预训练模型排着队的开源呢。
最后是数据。数据很容易被人忽略,但我从一开始就认为,数据才是真正的隐性门槛。
越来越多的论文也一再证明,RL可以不用,甚至模型参数也未必要很大,早前对LLM总结的所谓“要素”都有可能被新的实验推翻,但唯独一样越发重要,那就是数据。规模大、质量高的数据集很可能才是ChatGPT取得惊人成功的真正秘诀。
然而,人工标一个规模大、质量高的数据集需要花很多的钱,更重要的是需要花很多的时间。不过,一个未曾设想的道路,在ChatGPT出来以后从空想变成了现实,那就是RLAIF。
什么是RLAIF?前面我们说,ChatGPT的核心算法就是RLHF,翻译过来就是基于人类反馈的强化学习。“基于人类反馈”用大白话说就是人工标注,人工贵而且慢,所以数据成了门槛。但是,换个思路,如果有一种AI标注性能表现接近人类标注,那是不是就可以用AI来替代人类,实现RLAIF,也就是基于人工智能的强化学习了呢?
这个思路不难想到,毕竟都已经有一个词叫AI焦虑了,但这里有个经典的理论问题:到底是先有鸡还是先有蛋呢?
不过,OpenAI解决了鸡的问题,ChatGPT标注性能甚至超过了人类,再加上开源社区孜孜不倦地用爱发电,所以,问题现在依旧是问题,但已经没那么是问题。
最后说说国产LLM的区别,其实这才是关键。
互联网企业大干快上已经上演了好几次,所以这次国产LLM的主要剧情也不难猜,技术上大差不差,基本都是上面这些,最终活下来的关键就是区别。
现在测国产LLM都喜欢测语义理解,测逻辑推理,不能说测的不对,但没抓住重点。LLM的语义理解、逻辑推理重要么?重要,但如果技术上大差不差,性能上的大差不差也就是时间问题。
重点是什么?是应用。用互联网的话说,叫赛道。