雷刚 发自 凹非寺 量子位 报道 | 公众号 QbitAI
刚刚,中文语言理解权威评测基准CLUE榜单,被“低调”刷新。
不同的是,不是大公司、不是超大模型……
一个新面孔,一个轻量化模型,首战即登顶,四两拨千斤。
CLUE近年来由巨头——腾讯、搜狗、华为、阿里达摩院轮番霸榜的格局,被首次打破。
澜舟科技-创新工场推出的孟子模型,以十亿参数完成了此前百亿、千亿参数模型刷新的纪录。
这也是澜舟科技首次对外曝光,背后团队负责人,正是AI大牛周明。
轻量化模型孟子?
孟子,基于澜舟团队自研技术研发的大规模预训练语言模型。
包括创新工场、上海交通大学、北京理工大学等单位参与联合研发。
可处理多语言、多模态数据,同时支持多种文本理解和文本生成任务,能快速满足不同领域、不同应用场景的需求。
孟子模型基于Transformer架构,仅包含十亿参数量,基于数百G级别涵盖互联网网页、社区、新闻、电子商务、金融等领域的高质量语料训练。
但谁也没想到,小模型却有大智慧,一经登场,打破格局。
CLUE,中文语言理解领域最具权威性的测评基准,涵盖文本相似度、分类、自然语言推理、阅读理解等共10项语义分析和理解类子任务。
该榜单竞争激烈,几乎是业内所有自然语言理解玩家必争之地。
腾讯、搜狗、华为、阿里达摩院等更是轮番霸榜刷新纪录。
而且随着大参数模型愈演愈烈,CLUE还渐有巨头垄断之势。
因为百亿、千亿甚至万亿参数的大模型,已然不再是创业或其他玩家可与之争锋。
万万没想到,澜舟科技-创新工场团队出手,四两拨千斤。
因为孟子,走的是基于轻量级、高效训练的研究路线,致力于构建十亿级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本地落地现实业务场景。
孟子预训练模型性能比肩甚至超越千亿大模型,在包含文本分类、阅读理解等各类任务上表现出色。
相对已有的中文语言模型,孟子模型实现了多项突破性进展:
- 1) 坚持“小而精”的轻量化训练策略。实现在同等模型规模下,远超公开模型的性能。作为精巧的小模型,对标“巨无霸”,小模型性能超越千亿规模模型。
- 2)使用知识图谱增强模型,让 AI 真正获得知识。孟子模型具备顶尖的语言理解能力,在权威CLUE中文理解评测的总排行榜,以及分类排行榜和阅读理解排行榜均位列第一,刷新三项榜单世界纪录。总排行榜分数突破84分,逼近人类基准分数(85.61)。
- 3)灵活的领域和场景适应能力,方便快速定制和应用。基于T5-style的端到端生成的训练范式,同步适配BERT-style的判定式架构,既能理解也能生成。便于适配行业应用,覆盖广泛业务场景。
当然,随着孟子一鸣惊人,也必然能让轻量化模型研究来到聚光灯下。
原理方法和应用?
在轻量化模型算法研究方面,基于自研的基于语言学知识、知识图谱和领域数据增强等技术,从模型架构(包括基础层Embedding表示和交互层Attention机制)到预训练策略进行了全方位改进。
具体有四方面:
- 1) 模型结构方面,将语义角色、词性标注等语言学特征融合到Embedding表示中,基于句法约束引入注意力机制中,从而提升模型对语言学知识的建模能力。
- 2) 训练策略上,引入基于实体知识和Discourse的Mask机制,强化模型对语言成分和语篇关系的表征。
- 3) 为进一步提高训练效率,使用了大模型蒸馏和初始化小模型策略。
- 4) 为更好地将孟子模型适应垂直领域如金融、营销,使用了领域数据继续训练并构造相应的提示模版(Prompt),取得了明显的性能提升。
△孟子轻量化模型算法策略
基于以上算法策略,实现从语料中高效学习涵盖词级、句子级和语篇级知识,大幅提升语言模型提炼语言结构和语义信息能力,以及良好的领域迁移能力,适应广泛的产品应用场景。
另外,在Finetune的进展方面,如何将预训练模型用于各项任务?
澜舟团队也有总结,从数据增强、知识蒸馏、迁移训练、训练优化等方面展开了一些探索,进一步提升语言模型的性能:
- 1) 数据增强:使用领域相关数据;
- 2) 知识蒸馏:基于Teacher-Student自蒸馏提升训练效率;
- 3) 迁移训练:结合课程学习的思想,由易到难训练下游模型;
- 4) 训练优化:使用多种训练目标,多角度提升模型能力;
而且孟子还已经展开了垂直化领域应用。
基于领域适应技术,孟子模型已深度垂直化赋能相应行业。典型的例子为适用于金融领域的孟子模型,领域适应策略主要包含两大方面:
- 1) 通过大规模的泛金融领域语料,将通用孟子模型迁移到金融领域。金融版孟子模型已经应用于多个金融行业的合作企业,在金融知识图谱搭建、脱水研报、公告抽取等多个任务上获得了出色的表现。
- 2) 通过大规模的营销领域语料,将孟子模型迁移到数字营销领域,完成了营销文案生成、新闻摘要等多项任务,将用于行业头部的数字营销公司和多个世界五百强企业的合作之中。
澜舟方面还透露,孟子模型已在多个领域成功落地实践,衍生出多项行业领先的产品,涵盖文本生成、行业搜索、机器翻译等诸多领域。
并且毫无疑问的是,因为轻量级模型具有的模型参数较少、快速推断的特点,更易于线上部署和推广到移动设备中,自然不会局限于现有应用和场景,接下来还会有更广泛的研究和应用场景中。
澜舟团队?
最后,也简单介绍本次一鸣惊人的新面孔澜舟科技。
澜舟科技是创新工场孵化的一家认知智能公司。
公司创始人——周明博士。
AI领域内,周明已不用过多介绍,他是公认的世界级AI科学家,自然语言处理领域的代表性人物。
周明博士在2020年加盟创新工场,担任创新工场首席科学家。
而澜舟科技则针对商业场景的数字化转型,基于大数据、知识图谱和行业模型,提供新一代的信息检索、知识推理和商业洞见技术和相关产品。
据称目前已与国内外几十所著名高校和十余个相关领域的头部企业建立了稳定的合作关系。
值得注意的是,澜舟科技除了大牛坐镇,其实也是行业趋势的体现。
引用创新工场董事长兼CEO李开复最新分享来说:
AI的发展可以按照两个时间点划分。
第一个时间点是2015年,以CNN为核心的计算机视觉技术让机器超越了人类,带来了人脸识别、智能质检、无人零售、智慧城市、无人驾驶等商机。
而第二个时间点出现在2019年,以大模型为代表的自然语言方向取得突破性进展,让NLP从数据、信息走向知识和洞见成为可能,将会在翻译、语音识别、法律、金融、新闻、广告、医疗、娱乐等大赛道带来机遇。
“如果说CNN造就了今天计算机视觉领域的突破和众多应用,‘预训练大模型 微调’也将带来自然语言的百花齐放的发展,用数据智能驱动各类业务的升级。澜舟科技在周明老师的带领下取得了今天的成果,在新机遇面前躬身入局,一起发掘NLP领域的黄金发展期”,李开复说到。
— 完 —