最近Meta开源了llama2,几乎引爆了整个AI行业.这可能意味着AI迈入了一个新的阶段,开源将会深度参与AI技术热潮中. 也意味着未来一切皆有可能.
这篇文章不是说llama2与AI开源的,而是我在查阅llama2的技术白皮书中, 发现了一个非常值得注意的现象. 就是当前主流的前沿AI的训练语言中,以英文为主. 而其它语言,包括中文在内,占有的份额少的可怜.
这意味着什么呢? 如果AI时代不可避免的来临了,按照当前这样的趋势, 英文将成为AI中的绝对语言,包括中文在内的其它语言都不可避免的重要性大大降低.
数据
在Llama 2的技术白皮书中, 有一个地方引起发了我的注意,就是下面这个图:
可以非常容易的发现:
- 训练Llama2的数据中,英语有近9成比重
- 英语之外的其它语言比例约1成比重
- 其中, 中文占0.13%
这个图引起了我的注意,我同时好奇另外两个主流的AI, ChatGPT与Claude AI在训练语言中,是个什么情况.所以我就GOOGLE查阅了一下.
ChatGPT
ChatGPT中文资料比重还不足千分之一,为0.09905%,而英文为92.64708%。
Claude AI
"Claude 2 was trained on more recent data — a mix of websites, licensed data sets from third parties and voluntarily-supplied user data from early 2023, roughly 10% of which is non-English "
虽然没有查到各语言的具体数据,但是从上面的描述中看出来,在Claude 2的训练数据中,英语同样是9成比重,而非英语语言中,总共才1成左右.
影响与后果
可能现在国内很多使用ChatGPT的人没有意识到这个问题, 因为ChatGPT同样支持中文, 使用起来似乎感觉“还不错”.
这就是值得忧虑的问题. 那你有没有想过一个问题, “比重不到0.1都不到中文有这样的效果,那9成比重的英语的效果又如何?”
很多使用ChatGPT的人没有使用过英文,也就意识不到中文与英语的差距. 且不说中文的很多问题, 就我个人使用来说,ChatGPT对英文明显理解更准确与到位, 我最近在做AI相关的工具时,也发现用英语来编写Prompt的效果会远远好于中文.
很显然,由于当前主流的AI都是美国公司开发的,不管是当前还是未来,理所当然的会以英语为主, 这个趋势不会改变. 长此以往,我认为的效果会是:
英语成为AI的主要语言
当然,各AI肯定会去支持其它语言,不会只用英语训练. 毕竟所有AI都是面向全球. 但是不可避免的, 最主要都会用英语去训练.
那理所当然的英语会成为AI的主要语言. 意味着用英语来与AI打交道,肯定会更好,更高效,更有价值.
比如,一个已经出现的事实能说明这个问题, 文心一格最开始发布时, 闹出了一些笑话, 对一些中文描述的理解几乎是直译为对应的英文,再生成一幅画. 结果令人啼笑皆非.
关注AI的可能都知道这个事. 具体我也不说了, 这就是由于训练数据来源于英语的一个小的表现而已.
其它语言成为附庸,发展面临困境
我对大模型语言的算法一无所知.
但我猜想, 模型与训练数据是相互促进的, 在英语为绝对语言的前提下, 大模型算法对英语的理解或效率会越来越好,越来越高. 根据马太效应的原理, 这会进一步促进大模型算法的发展, 而大模型的发展同样进一步深代AI时代对英语的依赖.
至于其它语言,自然就变成这个中的一个附加或附属, 慢慢的在AI中会变得无足轻重.
中文的困境
除非国内的大模型能有所突破,或迎头赶上, 否则AI时代的中文必然会面临困境.
结合现在互联时代中文问题,AI时代这个困境可能只会加深,表现在:
中文内容质量低下
好吧,虽然这个结论有些伤人,但我们很多人都能感受到互联网上中文内容的质量低下化这个趋势.
在上层的空话套话,叠加下层流量为导向的主导下的低质内容普遍化两个趋势的结合下, 中文内容在互联网上质量不高,远比不上英语. 还不说也不能说的普遍存在404的现象导致的很多好的内容不复存在.
大家都能感受到中文内容低下的趋势,事实上,我在使用GOOGLE时,很多时会自然的用英文去搜索,而不是中文. 至于国内的百度, 好吧, 我几乎很少使用,也就不评价了.
中文因为有14亿人的使用,及近五千年的文化沉淀(比如文言文,诗, 词等),使它独具魅力,但如果AI时代英文为主,中文未来的趋势不容乐观.
高质量中文训练数据的来源问题
要说国内的AI, 现在国内大模型有几十个了.令人眼花缭乱.
但事实上,这些模型当前和ChatGPT主流AI还是有差距, 被使用与关注度也非常少. 虽然我最近在做AI工具方面的工作,但关注的主要是ChatGPT, ClaudeAI以及最近开源的llama2这些.
我当然希望国内的大模型能发展的好,有突破. 但凭直觉我会认为现在国内的大模型仍然会有差距. 同时我也确实暂时没感知到周围有使用国内AI的这种氛围或趋势.
对于国内AI训练来说, 普遍面临的中文来源的问题在于
- 缺少类似维斯百科这样的高质量免费公开的资料库
- 前面说过,中文内容低下, 当然有好的内容,但问题是它属于少数,如何命中是个大问题.
- 内容封闭性. 不同平台内容相互各不开放, 封闭在自己内部才能查阅, 甚至都搜索不到.
怎么办
好吧,宏大的东西我就不谈了,做为个体, 关注力所能及的才更重要.
做为个体,我的建议是:
学习英语
这是第一个建议, 接受现实吧. 不要说AI, 就是现在的互联网, 如果懂英文, 能更容易接触到高质量的内容, 查找东西更省时省力, 学习到的都是有更有价值的内容.
有人说AI时代不用学习英语,我认为这不会成为事实. 事实上,AI时代,可能英语的重要性不是降低了,而是加大了.
如果你从事的工作或感兴趣的东西前沿都在国外,那保持对英语的学习仍然非常重要. 比如我们程序员,还是要懂英语的.
坚持输出好的中文内容
如果你在输出中文内容. 比如像我这样, 会写一些文章,技术博客的. 或者你在写小说, 文学什么都好. ,一定要坚持输出好的中文内容这个原则.
当然,我知道流量非常重要,但现在中文互联网这种空话 标题党垃圾内容,过分关注流量导致的内容低下化,只是在竭泽而渔而已.
我们没有办法改变别人,但我们可以让自己做的更好, 所以输出好的内容就成为内容输出者该有的操守.
这也就是我坚持原创,只努力去写有价值的内容的原因.