1.75万亿参数、在国产超算上训练，刚刚智源发布了全球最大预训练模型“悟道2.0”

中国的AI内行顶级盛会——2021北京智源大会又来了。

每年的智源大会参会阵容都非常豪华，今年也不例外，包括Yoshua Bengio、David Patterson两位图灵奖得主在内的200多位学者将一起对AI的技术和应用进行深度探讨。

Bengio更是带来了他的System2深度学习理论最新进展。

但是在今年的智源大会上，最重磅的“明星”却不是这些学者。

因为全球最大的预训练模型的纪录，被中国团队刷新了。

真正的主角是它！

就在刚刚，北京智源人工智能研究院发布了“悟道2.0”，达到1.75万亿参数，超过之前由谷歌发布的Switch Transformer，成为全球最大的预训练模型。

今年3月22日，智源才发布了“悟道1.0”，这是由智源研究院学术副院长、清华大学教授唐杰领衔，来自北大、清华、中科院等单位的100余位AI科学家团队联合攻关完成。

2个多月后，悟道进化到2.0，模型规模爆发级增⻓，而参数越大，意味着越强的通⽤⼈⼯智能潜能。

“悟道2.0”不仅仅是个语言模型，它是一个全能选手，一统文本和视觉两大领域，在问答、绘画、作诗、视频等任务中正在逼近图灵测试。

“悟道2.0”一举在世界公认的9项Benchmark上获得了第一的成绩。

尤其值得⼀提是，这个世界最⼤万亿模型，完全基于国产超算平台打造，其基础算法是在中国的神威超算上完成模型训练。

对于AI研究者和企业来说，最重要的是，“悟道2.0”和GPT-3小批量付费使用的模式不同，将向AI社区和企业公开预测模型，并从今天起公开API，所有人都可以免费申请使用。

那么，为什么新⼀代“全球最⼤”预训练模型，会出现在智源“悟道”攻关团队?

智源之所以能打造出1.75亿参数“悟道2.0”，是因为拥有开创性的FastMoE，打破了分布式训练的瓶颈，这是实现“万亿模型”基⽯的关键。

过往，由于谷歌万亿模型的核⼼技术MoE和其昂贵的硬件强绑定，绝⼤多数⼈⽆法得到使⽤用与研究机会。

MoE是⼀个在神经⽹络中引⼊若⼲专家⽹络的技术，能直接推动预训练模型经从亿级参数到万亿级参数的跨越，但离不不开对谷歌分布式训练框架mesh-tensorflow和定制硬件TPU的依赖。

FastMoE打破了这⼀限制，作为⾸个支持PyTorch框架的MoE系统，它简单易⽤、灵活、⾼性能，并针对神威架构进行了优化，可在国产超算上完成训练。

另外，还有两项技术赋予了悟道更为强大的能力。

一是最大的英文通用预训练模型GLM 2.0。此前，GLM首次打破BERT和GPT壁垒，开创性地以单⼀模型兼容所有主流架构。新一代模型以100亿参数量，⾜以匹敌微软170亿参数的Turing-NLG模型，在LAMABADA填空测试中表现更优。

二是世界最大中文多模态生成模型CogView，参数量达40亿，可直接从中文文字生成图像，在MS COCO文本生成图像任务权威指标FID上，CogView打败OpenAI今年年初发布的130亿参数的DALL·E，获得世界第一。

CogView已经和阿里达摩院合作，将这项技术用于服装设计领域。

针对小样本学习系统，智源悟道团队提出了微调方法P-Tuning，极大缩小了少样本与全监督学习条件下微调性能的差距。

在训练大规模预训练模型时，要消耗大量的算力资源和时间，为了提升其产业的普适性和易用性，悟道团队搭建了⾼效预训练框架CPM-2：一个在编码、模型、训练、微调、推理AI全链路上的高效框架。

最后，唐杰教授还公布了全新数据集WuDaoCorpora，这是目前全球最大的中文文本数据集（3TB）、多模态数据集（90TB）和中文对话数据集（181G）。

智源并不只满足于技术上的突破，还要以大模型为起点，打造未来AI平台。

悟道要成为像“电网”一样的基础设施，为AI在产业上的应用提供源源不断的动力。

大会现场举行了与美团、⼩⽶、快手、搜狗、360、寒武纪、好未来、新华社等21家企业进行战略合作的签约仪式。

联合从行业龙头到中小创新企业，共同组建“悟道大模型技术创新生态联盟”，以模型研发和应用促进产业聚集。

如在与新华社的合作中，将大模型应用于新闻智能化转型。悟道能够进行新闻内容处理、图⽂生成、传播优化等，还具备接近⼈类的图⽂创意能力，可以作诗、问答、创意写作。

其中，最让人期待的是“悟道”与“小冰”的梦幻联动，这两个AI今天一起打造了虚拟大学生“华智冰”。

华智冰同学使用悟道大模型已经掌握了写诗、绘画、作曲等技能，接下来还要拜唐杰教授为师，进入清华唐杰实验室学习，增进自己的能力。

0 人点赞