​国内商业化ChatGPT能赶上ChatGPT吗?

2023-09-09 09:22:46 浏览数 (1)

第一,很难。第二,难也得赶。

难很好理解,但这里分享一个不同的观点:我认为难的方向与之前普遍认知有所不同

我之前已经写过很多ChatGPT和大语言模型门槛的文章,譬如说算法,包括模型结构和训练方法,譬如说高算力,譬如说大数据。除此之外还有种种工程细节。

不过,现在不同了。从纯技术的角度看,要做一款对标ChatGPT的产品门槛其实越来越低

为什么呢?从大方向说,技术肯定是越来越贬值的,不过,就具体细节来说,又有很多值得关注的地方。ChatGPT掀起风潮以后,OpenAI坚定选择了闭源,模型、算法和训练数据都没有公开,甚至论文也没公开,这个做法即使是OpenAI也很不寻常。总之,外边只能通过API使用模型能力。

但是,开源社区的澎湃发展超乎想象,投入大模型开源行列的团队规模也超乎想象。从算法到数据到模型都在快速发展迭代,开源圈子从理论和工程两个方面对大模型能力的研究越来越多,你要做什么,要怎么做,目标越来越明确,这比从无到有的漫漫摸索要容易太多。

而且,开箱即用的工程资源也越来越多,这意味着什么?这意味着时间。很多的坑和门槛,已经有不知名的开源同伴为你趟过去了。你只需要专注于你的目标。也正因为开源,大家都得以专注于自己的目标,形成良性循环。

此外,还有一个意外的“开源”,那就是数据。

很多文章介绍ChatGPT,通常会强调模型、训练方法(RLHF)和算力,往往会忽略数据,但我认为高质量的问答对话数据是训练ChatGPT关键的关键,也是一道让绝大多数团队望而生畏的门槛。

但是,意外就意外在忽然踏着五彩祥云来了一位英雄,硬是把这条门槛给削低了许多。这位英雄还不是别,正是OpenAI。

怎么回事呢?行内的同学肯定猜到了,ChatGPT出了名的就是对话质量高,再加上我要的就是做到ChatGPT对等的水平,那为什么不干脆直接用ChatGPT吐出来的数据呢

这事本来还有点麻烦,ChatGPT只能通过Web界面交互,用来构建大规模数据集效率太低。怎么办呢?还得是你OpenAI,直接开了API接口,而且相比前一个模型还便宜了。所以这段时间很多团队都在卷用ChatGPT花式构建高质量训练数据集,甚至构造一个提示模板让ChatGPT自动吐数据也能发一篇论文,看论文都看得已经有点玩游戏游戏看攻略的意思。

而且还有一点好,这些论文通常还附送一个用ChatGPT构建的开源数据集,高质量数据集的问题,至少训练具有ChatGPT水平的高质量数据集问题,现在已经不怎么是问题了。

数据有了,开源模型就有了起飞的燃料了。现在开源模型发展到什么程度了呢?不断有团队说做了一个开源模型,或者基于开源模型的一个什么,性能和GPT-3.5可以五五开,有一些更厉害一点,说在部分任务下和ChatGPT也能五五开了。

所以现在为什么隔几天就出来一个“平替”的开源模型,原因就在这里。开源生态一旦发育成型,孵化产品那就是下饺子。

那么,难在哪里?

用户数据本身就是资源,就是门槛。OpenAI是不断在积累用户数据的,然后用这些新数据再去训练新模型。在这个过程中,OpenAI直接面对用户,在这个过程中没有模型在中间赚差价。而我们用的数据还是由老的模型生成,那么哪怕效果再好,不过也只是达到老模型的水平。

这就有点像阿喀琉斯追龟悖论。准确来说,这个语境下应该是龟追阿喀琉斯。

何况你还想做商业化,想商业化就得和Open抢客户。对于用户来说,既然OpenAI已经更早发布了一款更好的产品,口碑和黏性已经形成,还有多少人有动力,去使用后来者差不多的追赶品呢?

何况,你距离差不多还差得多呢?

怎么办呢?难,难也得赶,因为:

唯有赶才可能赶得上

0 人点赞