微软论文称 ChatGPT 为 20B 模型

微软的一篇论文中揭示，ChatGPT-3.5 使用的是 20B 模型。这样的参数规模虽然之前有所预见，但真正被证实的时候还是非常令人惊讶——真的能用 20B 量级实现效果这么好的模型吗？

https://arxiv.org/pdf/2310.17680.pdf

之前我们已经比较明确地知道，GPT-3 是 175B 模型；

而 gpt-3.5-turbo 的接口调用价格约为 davinci-003 的 1/10，且接口速度明显变快。

微软的这篇论文（CODEFUSION: A Pre-trained Diffusion Model for Code Generation）是介绍代码模型 CodeFusion 的，其中一张比较表格中，「捎带手」地给出了 ChatGPT 的模型参数规模：20B，咱也不知道是不是故意的。

其实早在gpt-3.5-turbo的价格出来的时候，就已经有人给出过这个推断了：

1. ChatGPT 是百亿（~10B）参数的模型（这其实是我们两个多月前就已获取到的消息，也可以通过测 latency 验证，和 curie 差不多） 2. 虽然 ChatGPT 的 policy model 是百亿规模，但它所用的 reward model 也许用了千亿模型，这相当于最强的模型所学到的 human preference 被 distill 进了小尺寸。更可怕的是，这个小尺寸（~10B）模型已经达到或超越了先前的大尺寸模型（例如 175B 的 GPT-3.5）

作者：郑楚杰

链接：ChatGPT 和 Whisper API 已开放接口，单价骤减 90% ，有哪些值得关注的信息？

我的几点想法：

1、20B 大概率是真的，但绝对不意味着随便一个 20B 都可以，要知道从小模型做到 20B，和从大模型蒸馏到 20B 的概念绝对不一样；

2、OpenAI 在多个场合多次表示他们坚信 scale law 依然成立，我不认为这是烟雾弹，并不能因为gpt-3.5-turbo小模型成功就认为更大的模型没用；

3、 gpt-3.5-turbo让我们看到了边缘计算和端侧运行的希望，大模型的应用场景显然会变得更加丰富。只是不知道目前的蒸馏和缩小有没有理论极限，是否会出现小于某个量级后，基础能力明显下降的情况。

再过几天 OpenAI 就要办开发者大会了，希望能有更多信息，据外媒说 OpenAI 最近丢了不少商业客户，甚至和微软也貌合神离的，OpenAI 说要降低费用，让开发者能有更多机会，感觉他们还会憋点大招出来。

人工智能 chatgpt openai

0 人点赞