主笔:张小珺
编辑:石丁
出品:腾讯新闻《潜望》
2024年9月,OpenAI预热已久的“Strawberry”(草莓)项目终于问世,它重置命名模式,没有沿用原有的GPT命名,而是取名为o1模型——业界认为,o1代表了AGI范式的一次大转移或者大升级。
在靠语言模型预训练的Scaling Law这个经典物理规律遇到瓶颈后,包括OpenAI在内的多家硅谷明星公司,已经把它们的资源重心押宝在一条新路径上:强化学习。o1的发布把以强化学习为基础的后训练,推到了焦点中心。
百川智能创始人兼CEO王小川很早就开始在公开演讲中谈论强化学习。他曾说,大模型代表快思考,它叫“学”;强化学习是慢思考,叫“思”。“学”和“思”两个系统最终会走向融合。
在o1发布后,王小川在第一时间接受了我们的访谈。关于o1和强化学习,他有一些核心观点:
1、o1不代表范式转弯,而是范式升级,OpenAI摸到了一条从快思考走向慢思考的道路;
2、o1的关注重点在于两点:从以语言为核心走向思维链,更强调思维链(CoT,"Chain of Thought");把思考过程和给出结果,分两阶段运行,能够增加泛化性;
3、除了数学和代码,AI医生是可以用强化学习提升的领域;
4、另外,他做了一个预言:代码会变成大模型下一步的核心能力,大模型通过写代码解决更多问题甚至是自身思考过程,未来几年将从强化学习范式走向写代码来解决问题的新范式。
以下为王小川的访谈节选。(为了方便阅读,作者做了一些文本优化)
o1摸到了一条从快思考走向慢思考的道路
腾讯新闻《潜望》:关于OpenAI做强化学习的经过,你了解哪些事实?
王小川:之前在Sam Altman被宫斗下课的时候,我理解并不是狗血的事。
它的董事会是又聪明、也挺正直的人,不会犯傻。有的人要么蠢,要么坏。但这些人既不蠢,也不坏。纷争背后一定有某些大家没发现的事。
在之前一周,我听到当时他们一个核心的人传出来:NoamBrown,之前是DeepMind做强化的一个大神加入OpenAI,并且号称跟其他朋友讲,他们有一些突破性的事情了。一周后,Sam Altman又出了点事。
前后是两个事。第一个,被宫斗,一定是技术上大家没看到的东西在内部有质疑,说Sam Altman比较激进,他对安全性(认识)不足,把安全重要性放在技术突破后面。有些突破性的技术可能不安全,但他有点无所谓,想尽快把技术突破做下去。恰巧Noam说他们有技术突破,而Noam代表强化学习。
两个放一块,去年底我们推论出,OpenAI强化学习有一些突破了。
腾讯新闻《潜望》:今年初OpenAI发Sora,你们技术同事想跟进,被你摁死了。这次o1呢?
王小川:这个技术范式核心是语言模型,然后走向强化学习——这是智能提升的两个阶段。
当做Sora时,它既不是语言学习,也不是强化学习,就不在提升智力方向里,而是另一个独立产品。因此做Sora,从技术上并不代表智能的提升,场景上也不是百川所追求的。我当时认为,有同学这么想,属于“技术没想明白,场景也没想明白”。
去年4月百川下场的时候,就在强调强化学习,以及强调多模态不是智能提升方向。
我们说大模型是“读万卷书”,强化学习是“行万里路”。大模型本身叫“学而不思则罔”,它会读很多书,但内心偏混乱。单独强化学习有一个典型作品,是AlphaGo。我相信AlphaGo是对人工智能的启蒙,它是强化学习特别是自我博弈的一个典型代表。这个技术,之前DeepMind一直沿着这个路子走,走到后来发现它叫“思而不学则殆”,停在一个问题里面走不出来了。
因此,这两个技术都有自己的局限性。
在人工智能发展史上DeepMind有很多成果,像AlphaGo、AlphaZero,甚至一点数据都不用。只是很不幸,OpenAI从语言里面把通用智能往前走了一步,就是用学习的方法,用思考的方法。这种技术(学习和思考)早晚会合璧。
腾讯新闻《潜望》:有评论说“相比GPT-4o,o1模型向前迈了一步,却又退了两步”,你怎么看?
王小川:我不认为它叫进一步、退两步,也不叫转弯,就是范式升级了。
快思考是慢思考诞生的一个过程。先得有快思考,才能有慢思考,它不是转弯的过程。而是,怎么用大模型的快思考,之后能够让它学会慢思考,是一个进阶。
我沿用DIKW的模型——DIKW指的是从Data到Information到Knowledge最后到Wisdom,四步走。之前的搜索是Information这层,帮你获得信息。到了大模型LLM之后就到了Knowledge这层,它有知识、有沟通、有快思考。而今天有了这么一个慢思考,它已经从Knowledge进化到了有Wisdom的雏形,真的开始有智能。
因此它是范式升级,把原来的模型作为组件之一,不只是用今天这么一个强化学习服务于大模型。大模型是它的一个组件了,这是一个大的跨越。
总结来说,既不是转弯,也不是进退,而是摸到了一条走向慢思考的道路。
腾讯新闻《潜望》:为什么我们需要一个能慢思考的AI?它能帮我们解决哪些事?
王小川:智能本身一定是思考的过程。无人驾驶做端到端,在端到端里面也需要能一步、两步、三步去想。就像我们做几何定理证明题,求解一定得有思路。当你有思考过程,就是一个慢思考。所以,智能本身需要有多步的思考。
大多数比较复杂一点的问题,不管是代码问题,还是数据、逻辑问题,或者咱们日常想解决的事,都得分步骤解析,而不是一拍脑袋就有快思考结果。
除了文学写作,可以用快思考写诗,一鼓作气做完了;大多数时候需要有多步,需要慢思考。
腾讯新闻《潜望》:o1隐藏了思维过程,甚至有人破解o1的思维链会被警告要封号,OpenAI为什么这么做?
王小川:之前做大模型,各家用它的数据做蒸馏,能够迅速接近它。OpenAI毕竟是一个商业公司,不是一个公益型公司。一旦公开,大家不仅仿效它的逻辑,更容易争夺它的数据;不仅破解它的算法,而且是它的数据获取。
这会让别人家进步变得很快。也说明,这个技术本身独有性是有限的。
因此,封锁是一个竞争策略。
从以语言为核心走向思维链,
分两阶段运行增加泛化性
——这两句把强化学习的精髓讲完了
腾讯新闻《潜望》:我们应该怎么看待o1,是一个过渡性的产品形态吗?
王小川:o1有点像当年GPT-3的发布,离最后3.5和4突破性有距离。但是3发布在业内就已经很震撼了。
腾讯新闻《潜望》:我前几天和一个前OpenAI研究员(边塞科技创始人、清华叉院信息研究院助理教授吴翼)聊,他的研究方向是强化学习。他说,现在相当于从阶段一进入到阶段二。之前pre-training(预训练)能挖的金矿越来越少,大家意识到以强化学习为基础的post-training(后训练)是第二个大金矿,就让迈向AGI的梯子多了几节。
王小川:这个理解完全一样。
腾讯新闻《潜望》:在你看来,OpenAI o1应该关注哪些要点?
王小川:第一,它坚持以语言为中心,又叫语言中轴。
之前大家多少觉得多模态是智力。但你看OpenAI上多模态帮助不大,现在还是语言为核心,甚至更进一步,从语言为核心走向CoT("Chain of Thought",思维链),更强调思维链了。因此语言在中间承载思考的时候变成一个多步的思考。
第二,它把思考过程和给结果,分成了两个步骤,这样对思考过程能够更好进行一个泛化。
比如说解数学题的时候,你可能是学会一个思路,就能解好多题。因此并不是他在追求这个题解对了的一个结果,而追求解题过程是对的。分成两个阶段之后,能把CoT变成一个能泛化到从你解一个数学题,到解更多题,甚至到其他领域共性能力提升。
因此,核心关注语言为核心的CoT,以及分两阶段的运行能增加泛化性——这两句话有很大信息量,已经把强化学习的精髓讲完了。
腾讯新闻《潜望》:能不能介绍一下“强化学习”这个概念?
王小川:“强化学习”跟之前“监督学习”的区别是:监督学习你要告诉它解题过程是什么,它依葫芦画瓢;强化学习是不告诉它过程,只是判断你做得对不对。
就像教小孩,你说你要做个事,一二三怎么做,小孩可能学得快,但他并没有“知其所以然”。但是如果他做对了,你说对;他做错了,你说错,这个小孩的学习要自己花心思找方法。这就是“强化学习”跟“监督学习”的本质区别。
大模型为什么特别强调强化学习呢?大模型本质是把全天下最优质的语言来做训练,我们说是“一个压缩的过程”。压缩过程是一个在原有数据“分布内”的一种智能,它的思考能力是不会超过你原始数据的。
但我们知道,单看智能是跳出原来的框架去想事。数学上叫“分布外”,大模型叫“分布内”,就在探索以前未知的事。所以这个时候需要创造环境,让你在这个环境互动当中,环境的反馈能给原来数据语言之外的内容,能提升你的解题问题或者智力。
从“分布内”走向“分布外”,这是智力必须的过程。所以用强化学习就变成了必须的事。
腾讯新闻《潜望》:这里面包含哪些关键技术原理,复刻它难吗?
王小川:有很多数据和工程问题要做。复刻它本身,如果你蒸馏它会变得很简单;但复刻起来的时候,对于你的算力,对于你的专家来标注这个系统,都还是有蛮多挑战。
比复刻个GPT-4会变得更难一些。
腾讯新闻《潜望》:还是需要专家、需要人工?
王小川:我觉得需要的,也需要人教它。
腾讯新闻《潜望》:Self-play RL(自博弈强化学习)能让人工更少吗?
王小川:肯定会。计算机领域有句话是这么说的:求解一个问题比验证一个问题更难。找问题答案比判断答案对不对更难。
你走迷宫,找到那条出路是难的,但要验证这个迷宫走得对不对、是不是走通了、有没有撞墙,是简单的。或者做几何定理证明题,你求解它难,但你找到求解过程后,让另一个人验证求解过程有没有bug是简单的。
我们很愿意用强化学习,其中重要的是,我并不知道怎么解这个题,但我能验证你解得对不对。这个情况下能使整个系统的能力得到很大提升,也降低标注数据本身的难度,或者同等标注数据的难度,它就能解更复杂的题目,这是中间的核心逻辑。
腾讯新闻《潜望》:强化学习能实现泛化性吗?它能够带来通用智力水平的提升吗?
王小川:强化学习之前的泛化性是不好的。AlphaGo之前就做得不好。
今天OpenAI基于这两件事,我觉得把强化学习做得挺好。第一,它局限在数学、代码,这个局部领域有足够大的突破。也说明这两个领域里有足够好的数据来验证它。比如数学题做得对不对?一个程序是否能编译通过?运行完了跟你想要的结果一不一样?所以,在没有泛化性和绝对答案的情况下,它做得特别好。
第二,它的泛化性来自于之前把它分为两阶段,就是把CoT和后面的执行过程分开了。因此,就像之前训练代码训练了之后,整个系统逻辑能力提升了一样。之前咱们也讲了GPT-3.5这两个版本合在一起之后,逻辑性提升来自于代码的学习。现在也是一样,其他场景的泛化性来自于对于数学和代码的CoT本身掌握得更好了,这个CoT能泛化到其他思考环节去。
腾讯新闻《潜望》:之前大家对GPT-4有一个诟病是数理能力比较差,o1变成了数学、编程方面的偏才,未来会出现更多专注于特定领域的模型吗?
王小川:我不觉得它是偏才,现在就是一个“文科也不错、理科一下子变得特别强”的模型。
至少OpenAI代表的路线图是通用的道路,会逐步把这样一个领域拓展开。并不代表以OpenAI自己积累的数据闭环就能做到全知全能。在各个领域使用的时候,专业领域的数据会扮演很重要的角色。
腾讯新闻《潜望》:做一个o1需要多少的算力、数据,有没有一个预估?
王小川:可能跟做个GPT-4差不多。
腾讯新闻《潜望》:o1 GPT-4o会出现什么?
王小川:不需要合并。现在叫o1,已经版本重置了。
合并本身不难,即便包含不了,分两个调用也行。
腾讯新闻《潜望》:o1只是新范式的第一步,之后它会怎么演变?
王小川:它的算力继续增加、训练效率提升,以及如何在领域数据中更好地能去使用,还有大量可挖掘的内容。
往下有几个事可能会发生:第一,领域的更好的泛化能力,就是找到范式把领域知识给做起来,是一个要突破的事。
第二个,再往下,我可以做个预言:未来代码会扮演更重要的角色。
以前代码是帮助提高逻辑能力,或者帮助程序员辅助写代码。我认为未来代码会变成大模型下一步的核心能力。
也就是说,大模型通过写代码能够去解决更多的问题,解决自身的思考过程,从强化学习范式还会走向写代码来解决问题这个新范式——这在未来几年内会实现。
走出大厂射程,
大模型“六小龙”至少能活一家
腾讯新闻《潜望》:百川在强化学习这条路上是怎么做的?
王小川:百川一直挺重视强化学习,去年就成立这样一个团队。OpenAI是走在我们前面,这个得承认。
我们在Baichuan3 发布做了一个实验,用强化学习训练诗词。做强化学习之前要靠金标准,是在能绝对判断对错的地方训练,所以通常要做理科任务,数学、代码是可以做的。文科上没有对错判断的标准,写得好不好挺难让机器校对。所以,我们想在文科里是否也有一个Reward Model(奖励模型),于是想到用唐诗和宋词。
尤其是宋词,大家写起来比较难,它的字数、平仄、韵律、对仗有很多要求。但是要求反而是一种规则。当时我们在训练模型的时候,不是说让机器仿照人这么写诗词,而是让机器写诗词之后,我们用一个程序模型来判断诗词写得是否符合字数、平仄、韵律和对仗。预训练时就做了这样一个实验,取得了不错效果,代表我们在这方面之前就有积累和思考。
再往下,除了数学和代码以外,我们认为医生是蛮好的可以用强化学习提升的领域。医疗在很多问题上是有标准答案的。比如一个病人,综合症状他到底有什么样的病?或者该做什么检验、检查,该开什么药?这些地方是有答案的。
如果仿照医生的CoT再来验证答案对不对,这样能使模型的功力大涨。因为医生解释,不是光看医学院的书,读完就会了。他在临床中间一辈子可能看几万个病人,得到自己的提升。医生是在病人的互动中得到提升的,很多数据被记录下来。
因此,强化学习用来做医疗是一个特别好的应用方法,使医疗的可行性和质量得到很大提升。
腾讯新闻《潜望》:为什么你们当时做实验选择在诗词领域,是一个文科领域,而没有选择像数学、编程这种理科领域?
王小川:容易上手。
你在做任何突破的时候都有挑战,因为它本身文科就好,只是文科上的不足是诗词,因此用它来做验证,比在当时做数学和代码更容易上手做实验。
腾讯新闻《潜望》:Reward Model怎么设计?
王小川:我们首先是会有程序能够判定,比如说这样一首诗词,这种字数。比如通过词牌名大概100多首,每个词牌名的格式我们有数据分析。并且平仄,一声、二声、三声、四声,还有韵律、押韵,都可以用程序校验,我们当时就已经写了Reward Model。先是有一个规则的判定,再把它泛化成一个模型——这个路线图比较接近o1的做法。
但没有它做得更完整。o1特别好,有CoT的过程,我们当时不带CoT。
腾讯新闻《潜望》:今天看到o1以后,你能复现出哪些技术路径,从中改进你们的做法?
王小川:我们更强调CoT了,原来中间没有CoT这一步,直接从输入到答案。
有CoT之后——第一,我们做医疗的时候会找医生的思考路径,这样更快提升它的能力,就是有CoT的过程,而不只是完整的端到端;第二,有CoT之后泛化能力也会得到很大提升,只要思路对,答案就对。
腾讯新闻《潜望》:做了一年多强化学习,有没有积累更多关于强化学习的know-how?
王小川:强化学习一部分是从环境中学到新东西,一部分我发现它会激活原有一些能力。比如在写诗词,我们让它学会了字数、平仄和韵律,结果大模型自己就把对仗输出了——本来还没教它学对仗呢。
这就说明,它潜藏着记忆和能力,可以激活出来。所以在强化里,一方面是面向未来的范式,一方面它跟以前的强化学习逻辑也不完全一样。
腾讯新闻《潜望》:但这几个月AI有点变冷,o1能够重振大家对于AI的信心吗?
王小川:我不太关心外界环境,确实也听说外界在变冷,大家觉得比较迷茫,技术突破变慢,或者没找到应用场景。
然而对于百川,一开始就明确了我们的应用场景是在知识领域里造顾问,尤其是造医生。场景很清晰,离结果更近了,而不是开辟新大陆。
腾讯新闻《潜望》:国内的公司现在达到GPT-4水平了吗?
王小川:在接近吧。
腾讯新闻《潜望》:复刻o1的时间周期相比GPT-4怎样?
王小川:会比做GPT-4快一些,难归难,但毕竟随着国内也好、美国也好这么多开源项目产生,不管大厂还是创业公司进入,资本的充裕度和人才的集中度已经比刚开始发布GPT-3.5或GPT-4之后市场的人才储备、资金储备多了很多。
在一两个月时间里,有一些接近他们的模型就开始会出现了,会很快。
腾讯新闻《潜望》:你说国内还是国外?
王小川:都有可能。GPT-4比如用18个月,o1可能做到它那样也许9个月。起步有一个样子出来,可能1-2个月就有了。要达到一样的高度需要花力气。
腾讯新闻《潜望》:关于o1你有哪些想要知道但不知道的事?
王小川:挺多不知道,比如它拥有多少算力,有多少领域专家。
腾讯新闻《潜望》:o1可见上限是什么?
王小川:我认为可能在未来两三年内,这个范式会跑出它的结果,跟GPT-3.5到4是一样的。
剩下的就是代码可能会扮演更重要的角色——机器自己写代码,代码运行完了,生成一个神经元网络,甚至把神经元网络和它的模型再融合到一块去。
我认为未来还有新的范式会产生。
但是那一步做完了,我觉得AGI就接近了。
腾讯新闻《潜望》:你们接下来准备怎么做?
王小川:一方面美国领先的地方要跟进,另一方面坚定在医疗场景上突破。
腾讯新闻《潜望》:你说去年是为了赶上这个时代火车,一个快速rush的状态,今年呢?
王小川:我们去年不敢大声提医疗,我讲“医疗是大模型皇冠上的明珠”,大家不太理解这个场景的可行性。大家会问商业模式、伦理问题。
去年只造一个轮子,模型赶快入场。今年开始,我们开始真正的双轮驱动,“超级模型” “超级应用”。而且是一个“水涨船高的应用”,不只是“沿途下蛋的模式”。
水涨船高的应用,什么意思?就是模型越大,我这个领域能做得更好;而不是模型大到一个阶段就跟我领域没关系了。“沿途下蛋”的意思就是我下了个蛋,就放那,模型再好,你就下个新的蛋。这种情况下,你的蛋越来越多,你自己就会被拖累了。
因此,先做个广告模型放那儿,再做个客服模型放到那儿——这种情况不叫水涨船高,随着模型大就被淹掉的状态。而说到医疗,模型越大,这个行业可能存活率越大,这叫水涨船高。
腾讯新闻《潜望》:也就是说,假设模型能力特别强以后什么场景可以应用。
王小川:对。但是,模型在一般场景下,我也能进入。模型越大,这个场景就越受益,可以找这样一个场景。
腾讯新闻《潜望》:进去以后等着呗。
王小川:当然得努力工作了。
等着也对,模型越好,这个场景就越受益。
腾讯新闻《潜望》:模型和应用两条腿,你现在对哪一条腿更满意?
王小川:都在初始状态。
未来这两个也有关系,你的场景越清楚,对模型要求越细化。
腾讯新闻《潜望》:在医疗场景最终我们能看见的形态是什么?它好像不会是一个Super App,挺难想象的。
王小川:以前是App,就是叫PMF(产品市场契合点),我去发现需求,去满足需求,去创造需求。这是以前的逻辑。我去年提了TPF(技术产品契合度),我们从需求驱动开始变成供给驱动,供给驱动就是这个需求已经现实存在,只是供给不足,我把它造出来,就有市场。我更多地强调技术和产品匹配度。
大模型一个很大的逻辑是在“造人”,在造数字员工,因为它会语言,会思考,会沟通,而且学的是人类之前遗留下来的知识和经验,所以它不是在造计算器、造车这种逻辑——它是在造人。我们把造医生当成重点突破。
如果从产品形态看,你就是造了一个能够用的医生,前期是从全科、儿科入手,未来会走向专科的医生,到最后走向生命的数学模型。这是下一个阶段,从智能模型走向生命模型,这是远期目标。在机器智能模型里,它像智能人一样,就是个医生。
腾讯新闻《潜望》:人类跟它的交互界面会是什么?
王小川:靠自然语言的交互。
有可能你是个App,有可能是医院里一个终端设备,但最后它的交互是靠语言进行。语言或者视觉,跟人一样。
腾讯新闻《潜望》:在产品上什么时候百川让大家看到一个大的突破?
王小川:今年内吧。今年开始可能能接触到一点了,算是与人对话的。
腾讯新闻《潜望》:你上次说会造三个人,除了医生,另两个人你现在怎么想?
王小川:更通用的顾问我们也会做。
娱乐我们降低了。娱乐的目的是造虚拟世界,时间还没有到。所以我们现在可以等一等,先把通用的顾问和医生造出来。
我们想的娱乐不是跟你聊天的一个东西,而是造一个能够去创造世界、一个叙事的故事。这里缺少足够多的数据和资源训练它。
腾讯新闻《潜望》:聊天机器人这个市场现在是一个红海,终局会是什么样?
王小川:它是不是个市场都不知道,就别说叫红海市场了。
腾讯新闻《潜望》:大模型创业“六小龙”能活几家?
王小川:至少活一家吧。
腾讯新闻《潜望》:怎么看字节和大模型创业公司的竞争?
王小川:字节就饱和式攻击嘛,在一种共识里,字节是会发展非常快。但一定有比他们更高的认知,他们看不到的东西,或者他们组织能力做不到的事,才会有创业公司生存的机会。
走出大厂的射程,在这个射程内你是没什么好活的。