训练出千亿模型依然是 RWKV 当下最能证明自己的事情。
作者丨张 进
编辑丨陈彩娴
AI科技评论独家获悉,开源LLM RWKV背后的元始智能,种子轮融资已于1月16日走完工商变更,由陆奇于2018年创立的奇绩创坛和某匿名投资者投资,目前元始智能已开始继续融第二轮。
RWKV是国产开源的首个非Transformer架构的大语言模型,目前已经迭代到第六代RWKV-6。它的作者彭博在2022年5月开始训练RWKV-2,当时只有1亿(100M)参数规模,后续在2023年3月训练了RWKV-4 140亿(14B)参数版本。
RWKV-5的15亿和30亿参数版本已发布,且70亿参数版本会在2024年1月发布。而RWKV-6的15亿和30亿参数版本将在2024年2月发布,然后将继续训练70亿和140亿参数版本。
RWKV-5和RWKV-6系列的特点是,支持全球100 种语言,也支持几十种编程语言,目前可以在 https://www.rwkv.com/ 页面上的链接,体验在线Demo。
彭博香港大学物理系本科毕业,此前在香港对冲基金做过多年的量化交易,也在深圳做过智能硬件。在2020年,因为对AIGC小说生成感兴趣,他在优化GPT的过程中设计了RWKV。在模型架构上,RWKV创新性地将GPT Transformer改写成推理更快的RNN形式,同时依然保持了Transformer的并行训练能力和性能。
彭博6岁开始编程,拥有30多年编程经验,迄今RWKV的基底模型都是由他一个人训练的。他认为,大模型被少数公司垄断会对于人类存在风险,所以训练出RWKV后便开源了,目的是想创建一个更开放的模型生态。
彭博的AI宇宙世界观是,现在人类正处于与 AI逐步开始对决的时刻。彭博从量子物理的角度认为,人类或许只是宇宙实现某个更高目标的工具。因此,如果 AI 比人类更适应宇宙的目标,最终宇宙就会选择 AI 代替人类,这是对于人类的危险之处。
目前RWKV的Discord社群在海外拥有8000多个开发者,他们来自美国、欧洲、亚洲、中东等等。国内开源社区有五个QQ群,拥有上万人。
RWKV 元始智能联合创始人罗璇告诉AI科技评论,奇绩创坛投为什么投他们——主要是认为非 Transformer架构的RWKV可能会给大模型带来更多创新与突破。
在Transformer一统大模型天下的今天,有部分人觉得换不同架构能打破Transformer当下的瓶颈。
国际头部科技公司也在寻求不同的路径。在2022年2月时, OpenAI就注意到了RWKV和彭博,给他发去入职访谈邀请信。彭博在当时还没成立商业公司,但他立即回信婉拒了。他认为目前的OpenAI过于封闭,他希望做更开放的事情,所以给出的回复是“如果以后OpenAI愿意做开源的大模型,欢迎合作”。
罗璇表示,基础模型RWKV会一直开源,目前已经放到了Linux基金会下属的LF AI & Data 孵化(https://lfaidata.foundation/projects/rwkv/),借此让RWKV被更多人看见。
目前,RWKV团队有近十人,且正在继续招聘,目标是15至20人的规模。而基底模型的训练由彭博一个人负责,其他人会做模型应用、微调、优化、多模态、生态建设等工作。
对于RWKV团队来说,彭博希望在训练千亿级别模型前,先将模型的架构优化到最好,这样算力资源可以得到更好的运用。“现在RWKV-6架构代表了非transformer架构的最前沿水准,正在设计第7代模型的架构”。在将架构做到极致后,由于RWKV从1亿到140亿参数的性能提高曲线(scaling law)稳定,且训练过程稳定,因此千亿模型的训练只需有算力就能完成。
团队未来主攻三件事:1.训练出千亿模型;2.做infra,会将端侧的高效运行作为infra的一个切入点,跟高通、英特尔、联发科等芯片大厂(他们在2023年底的发布会都写明了与RWKV的合作)合作去推动模型落地到端侧设备上,比如手机、PC、车载;3.孵化应用和生态。
国内已经有一些公司在尝试用RWKV来训练模型,国外拿RWKV开源进行创业,拿到融资的,据罗璇了解已经超过10家。
在过去一年里,RWKV已经在To C、To B都有落地,To C主要在Agent、游戏、音乐生成、角色扮演领域;To B包括银行、律所等。
据罗璇透露,此次融资的钱主要用于工具栈建设、孵化生态、孵化应用,模型训练主要靠赞助和合作,现在最大的阻碍是需要更多算力,所以训练出千亿模型仍然是他们当前最具挑战性的任务。