ChatGPT 这段时间在科技新闻媒体里算是杀疯了,这东西对现在白领办公效率的提升是本质性的提升。想象未来社会随便都可以雇佣到 20 美金/月的大学生是一个什么样的世界。
LLM 3 要素
1.算力层面
大规模语言模型(Large Language Model,后续简称 LLM)非常依赖硬件,以 Nvidia 厂商的显卡为例,A100 显卡单片就要 6~7W,100 张 A100 显卡就要 600万 的投入,这时还没投入其他成本。
LLM 依赖的诸多计算芯片之间通讯协调也是一个非常重要的问题,这直接影响 LLM 训练的时间成本和效率,单纯靠堆积芯片数去提升算力规模是不可行的,假如单芯片的计算能力很弱,若无很好的计算框架协调各个芯片的通讯,反倒会把芯片的大部分算力浪费在芯片之间通讯上,整体成本会更高。Nvidia 也有相应 Nvidia Link 技术去解决这个问题。
即使搞到了高端的 Nvidia 芯片,也需要 Nvidia 厂商的技术支持,目前这个环境很难。
当单芯片计算能力和芯片间的通讯问题解决后,网络通讯带宽将成为制约因素,因此也有人说以后 LLM 上限会是网络通讯的带宽。
2.数据层面
LLM Native 将会是各中大型厂商第一考虑的方向。早期新浪门户提供业务落地场景给百度这样的事情也许不会发生了。
就像此前 Web2.0 时代 Blog 和 SNS 网站数据彻底喂饱了搜索引擎,让其数据飞轮优势显著提升到一个无法挑战的门槛。比如 2010 年代早期的百度,无论是 360 搜索还是腾讯搜搜、搜狗都无法在市场份额上挑战百度的地位。
在 LLM 时代,专业领域数据即是抵挡通用 LLM 的最后壁垒,强如百度,也无法在搜索领域去挑战旅游行业的去哪儿、本地服务的美团、电商行业的淘宝搜索。
现在中大厂商如果接入了 ChatGPT 的 API 或者文心一言, 那就是自我的投降,没落贵族新浪的结果就是未来。
由于国内环境 Content Security 的考虑,中文的语言模型(Lanuage Model,后续简称 LM)是被污染过的,有些词组的组合概率在 LM 肯定会留下强烈的人为干预特征。
另外中文互联网数据上为了规避 Content Security,散落着各种长图或者各种英文缩写,或者谐音类的代称。正常来讲,某个语言的所有文字资料组合生成的 LLM,基本了代表了这个掌握这个文字的群体的文明水平以及对这个世界的认知。
基于这种考虑,我对中文 LLM 不会保有太大的期待,这也是目前很多人在玩 ChatGPT 的 Prompt Engineer 尝试去用英文去表达而不是中文,毕竟 ChatGPT 的大量语言文本都是基于英文而不是中文。在中文文字输出的时候难免有英文机器翻译的味道。
3.算法层面
懂 LLM 的科学家将会非常稀缺,行业内 NLP 工程师本来就比后端工程师要高出很多,这是工程师的培养门槛决定的,在这个行业普遍 Fear of Missing Out 的趋势下,算法工程师将会获得更多的溢价。估计是近几年少数继半导体人才争夺战之后又一抢人大战。
农民工富裕的时间窗口已经过去了,但工程师富裕的时间窗口还是在的,毕竟 ChatGPT 公司人数也就不到 400 人的规模,技术上追赶持平只是需要时间。
现在 ChatGPT-3.5 的参数规模在 175 Billion,人大脑的神经元数量也就在 100 Billion 的规模,暂未超过大脑神经元突触的数量规模,不知道 ChatGPT 超过大脑突触的数量规模时其 AI 能力又会达到什么样的水平。
最后
也许那时会感叹人脑是最有能源效率的 LLM,说不定以后超大规模语言模型部署的每一个单元就是活体人脑,人脑生命周期到了就换一个新鲜人脑,能效比最大化。
Refenrence:
- 《哈尔滨工业大学:ChatGPT 调研报告》
- 《OpenAI 闭门讨论会 V3【GPT-4】纪要》
- 腾讯入股搜狗:注资4.48亿美元 搜搜并入搜狗 http://tech.sina.com.cn/i/2013-09-16/17368744531.shtml
- 淘宝搜索 https://s.taobao.com/