微软的一篇论文中揭示,ChatGPT-3.5 使用的是 20B 模型。这样的参数规模虽然之前有所预见,但真正被证实的时候还是非常令人惊讶——真的能用 20B 量级实现效果这么好的模型吗?
https://arxiv.org/pdf/2310.17680.pdf
之前我们已经比较明确地知道,GPT-3 是 175B 模型;
而 gpt-3.5-turbo 的接口调用价格约为 davinci-003 的 1/10,且接口速度明显变快。
微软的这篇论文(CODEFUSION: A Pre-trained Diffusion Model for Code Generation) 是介绍代码模型 CodeFusion 的,其中一张比较表格中,「捎带手」地给出了 ChatGPT 的模型参数规模:20B,咱也不知道是不是故意的。
其实早在gpt-3.5-turbo的价格出来的时候,就已经有人给出过这个推断了:
1. ChatGPT 是百亿(~10B)参数的模型(这其实是我们两个多月前就已获取到的消息,也可以通过测 latency 验证,和 curie 差不多) 2. 虽然 ChatGPT 的 policy model 是百亿规模,但它所用的 reward model 也许用了千亿模型,这相当于最强的模型所学到的 human preference 被 distill 进了小尺寸。更可怕的是,这个小尺寸(~10B)模型已经达到或超越了先前的大尺寸模型(例如 175B 的 GPT-3.5)
作者:郑楚杰
链接:ChatGPT 和 Whisper API 已开放接口,单价骤减 90% ,有哪些值得关注的信息?
我的几点想法:
1、20B 大概率是真的,但绝对不意味着随便一个 20B 都可以,要知道从小模型做到 20B,和从大模型蒸馏到 20B 的概念绝对不一样;
2、OpenAI 在多个场合多次表示他们坚信 scale law 依然成立,我不认为这是烟雾弹,并不能因为gpt-3.5-turbo小模型成功就认为更大的模型没用;
3、 gpt-3.5-turbo让我们看到了边缘计算和端侧运行的希望,大模型的应用场景显然会变得更加丰富。只是不知道目前的蒸馏和缩小有没有理论极限,是否会出现小于某个量级后,基础能力明显下降的情况。
再过几天 OpenAI 就要办开发者大会了,希望能有更多信息,据外媒说 OpenAI 最近丢了不少商业客户,甚至和微软也貌合神离的,OpenAI 说要降低费用,让开发者能有更多机会,感觉他们还会憋点大招出来。