大模型「进厂」有多难?这个源自中国的AI框架整整用了2年

2022-04-02 12:11:30 浏览数 (1)


新智元报道  

编辑:好困 David

【新智元导读】AI热了这么多年,但框架还是「二人转」,国产框架真的一个能打的都没有吗?

2020年末,DeepMind开发的第二代深度学习神经网络震惊了结构生物学界。

AlphaFold 2的问世解决了困扰科学家几十年的蛋白质折叠问题。

就在上个月,来自国内的团队也成功地完成了对蛋白质结构的预测。

经过优化后的模型在单步迭代性能上提升了40%,TM-score也达到85分,可媲美AlphaFold 2,更重要的是代码也对外开源。

在此之前,另一组联合团队也曾针对AlphaFold 2进行了优化,让模型的推理效率同比提升2-3倍。

这些研究人员能够在蛋白质结构预测上取得如此突破的一个重要因素,就是模型使用的AI框架——昇思MindSpore。

作为一个2020年3月才开源的昇思MindSpore,其热度已经登上了Gitee排行榜第一名,而基于这个国产AI框架打造的开源模型也超过了300个。

AI框架是什么?

想要搞清楚昇思MindSpore为什么这么受欢迎,首先需要了解「什么是AI框架」。

众所周知,人工智能的三大支柱分别是数据、算法、算力。

而AI框架正是算法模型在设计、训练和验证上的一套标准接口、特性库和工具包。

在开发过程中,AI框架负责给开发者提供构建神经网络模型的数学操作,把复杂的数学表达转换成计算机可识别的计算图,并自动对神经网络进行训练。

最后得到的模型,可以用于解决机器学习中分类、回归的问题,实现目标分类、语音识别等应用场景。

来源:中国信息通信研究院

除了完成AI算法的工程实现外,AI框架还能极大提高人工智能学习效率、强化AI算法模型能力,并起到承上启下的作用。

向下,可以调用底层硬件计算资源,能够屏蔽底层差异并提供良好的执行性能;向上,可以支撑AI应用算法模型搭建,提供算法工程化实现的标准环境。

讲了这么多理论,其实用一个例子就能很好地理解了。

我们熟知的TensorFlow和PyTorch,就是最出名,也是现阶段用得最多的AI框架。它们相继在2015年和2016年开源。

1年之内,连发4个大模型

相比起来,在2020年3月才开源的昇思MindSpore,可以说是相当晚了。

不过,「后发优势」也让昇思MindSpore得到了原生支持大模型的能力。

在设计上,昇思MindSpore采用了函数式可微分编程架构,支持全场景协同,并提供Python编程范式,让AI编程更加简单。此外,昇思MindSpore还统一了动态图和静态图的编码方式、单机和分布式训练的编码方式。

昇思MindSpore总体架构

对于大模型来说,并行训练的效率以及模型结构的支持能力是极为重要的指标。

昇思MindSpore提供了丰富的并行策略:数据切片预处理、数据并行、 算子级并行、优化器并行、 pipeline并行、 MoE并行和多副本并行。其自动并行的能力更是使并行代码量下降了80%,调优时间也下降了60%。    

相比起来,PyTorch/Megatron框架的并行能力目前只能支持Transformer模型结构 , 而TensorFlow支持的并行策略不够丰富且用的开发者也相对较少。

模型结构的泛化方面,昇思MindSpore为稠密Transformer、稀疏MoE Transformer、卷积、卷积 Transformer、高维稀疏等提供了全方位的支持。相比业界其他框架支持模型结构可谓最全。

凭借着原生支持大模型的能力,基于昇思MindSpore的大模型现在已发布了4个,并且其中有2个已开始进行产业化推广。

2021年5月,以鹏城实验室为首的技术团队发布了全球首个两千亿稠密参数中文NLP大模型「鹏程.盘古」通过昇思MindSpore的混合自动并行模式,实现了在2048卡算力集群上的大规模分布式训练。

「鹏程.盘古」在16个下游任务中大部分指标优于SOTA模型,其中零样本学习任务11个任务领先,单样本学习任务12个任务领先,小样本学习任务13个任务领先。

2021年9月,鹏城实验室发布了向生物医学领域的人工智能平台「鹏程.神农」,其包含蛋白质结构预测、小分子生成、靶点与小分子相互作用预测以及新抗菌多肽设计与效果评价等。

同样在2021年9月,中科院自动化所与昇思MindSpore社区联合发布了全球首个图、文、音三模态千亿参数大模型「紫东.太初」。

其兼具跨模态理解和生成能力,在图文跨模态理解与生成性能上都能领先目前业界的SOTA模型,高效完成跨模态检测、视觉问答、语义描述等下游任务。

在2021年的两个国际大赛——ACM Multimedia和ICCV上,「紫东.太初」都获得了第一名的成绩。

此外,2021年12月发布的全球首个遥感影像智能解译深度学习专用框架「武汉.LuojiaNet」,也是基于昇思MindSpore框架。 

华为昇腾计算业务副总裁、昇思MindSpore产品总监田昆阳表示,除了已经发布的这4个大模型以外,还有十多个正在研发当中。昇思MindSpore通过大模型收编小模型的方法,将泛化性做大,并且能够覆盖更多的场景。

从0到国内领先,仅用了2年

不过,一个AI框架能否成为主流,除了这些「雄伟壮观」的模型之外,很大程度上也需要依靠丰富的开源项目和庞大的开发者群体。

在这一点上,昇思MindSpore的成绩还算亮眼。

在中国本土化的代码托管服务平台Gitee上,已经建立了22个仓库,总Star数达到近1.6万,其中主仓Gitee指数89分,领跑同类项目,在人工智能项目中排名第一。

来源:中国信息通信研究院

在新智元的专访中田昆阳表示,为了建设开发者社区,昇思MindSpore除了始终致力于特性优化和易用性之外,也在着力打造一个学习成长型环境,让社区和开发者能够共同成长。

首先,社区为不同的开发者设计了完善的学习路径,通过社区活动、社区文档及案例、技术认证、奖项等提供丰富的学习成长资源。

其次,社区始终坚持开发者第一,开发流程公开透明,凡是为版本贡献过的开发者为其颁发证书,让开发者能深入参与到社区的成长中。

最后,社区建立了不同技术方向的丰富社群,并有组织者、布道师、开发者多种角色,让加入社区的每一个成员都能找到最适合的切入点。

现在来看,这个理念还是很受欢迎的。截至2022年3月,昇思MindSpore的累计下载量已经超过142万,开发者数量也突破了64万,社区贡献者超过4000人。

顶会论文数量,一度超越TensorFlow

不仅如此,学界也非常欢迎这个国产的AI框架。目前已经超过120家科研院所和高校用上了昇思MindSpore。

根据Paper With Code的统计,2021年第四季度,基于昇思MindSpore的论文就有220篇,占到了总数的6%,排名第三。2021年10月更是在所有AI框架中占到了11%,位列第二,仅次于PyTorch。

而去年一年以昇思MindSpore为AI框架的论文总数,则超过了300篇。

来源:Paper With Code

据田昆阳介绍,目前,武汉理工大学计算机学院本科生毕业论文都已开始用昇思MindSpore框架实现。学生还反馈说,随着版本更新迭代,昇思MindSpore软件的易用性产生了质的飞跃。

在各大顶会的竞赛中,昇思MindSpore的出镜率也非常高。

西安电子科大焦李成教授团队以昇思MindSpore作为框架获得了2021 IEEE GRSS Data Fusion Contest Track DSE冠军,并在ICCV 2021的竞赛中共计获得11项冠亚季军奖项。

此外,南京理工大学杨杨教授团队获得了SIGSPATIAL 2021 GISCUP国际冠军,武汉大学杜博教授和叶茫教授带领的MARS_WHU团队获得了ICCV 2021 MMVRAC赛道冠军。

然而,相比于在各大顶会占比都超过70%的PyTorch,昇思MindSpore还有很长的一段路要走。

为了帮助开发者和研究人员更好地解决在开发过程中遇到的困难或者疑问,昇思MindSpore建立了一种「快速响应机制」,针对社区中的问题成立对应的小组,明确SLA之后,在1小时之内做出响应。

近日,在由昇思MindSpore开源社区发起的「我与MindSpore共成长」两周年庆典征集活动中,就有100多位开发者讲述了自己的小故事。

从这些分享中,其实也能看到,大家还是非常喜欢这个正在不断进步中的昇思MindSpore框架的。

著名开源运动先驱人物Eric Steven Raymond曾经说过:「只要有足够多的眼睛,所有bug都会浮现」(Given enough eyeballs, all bugs are shallow)。

开源两年,就已惊艳不断的昇思MindSpore AI框架,未来还会吸引多少来自产、学、研三界开发者的「眼睛」?又会诞生多少颠覆产业趋势、改变未来计算格局的大模型?

开源两年,昇思MindSpore从零起步做到了「国内领先」,未来,伴着更多开发者热切关注的「眼睛」,这些大模型又会为在实验室和工厂之间架起多少「数字桥」?

希望在未来答案揭晓的那一刻,所有的眼睛里都有光。

这个答案,相信昇思MindSpore不会让我们等太久。

0 人点赞