ImageNet「众包」成就伟大数据集,「昇腾众智」创新AI开发模式

2021-03-30 15:47:00 浏览数 (1)

机器之心报道

作者:张倩

作为人工智能社区群策群力的早期形式,「众包」成就了 ImageNet 等一批成功的数据集,也加快了整个社区的发展进程。但要构建人工智能技术开发生态,仅靠「众包」是不够的。

2009 年,由知名科学家李飞飞发起,来自全球 167 个国家近 5 万名工作者以众包的方式,通过三年合作努力,完成了日后触发人工智能领域发展浪潮的伟大数据集 ImageNet。数据规模巨大,标注错误极低,ImageNet 发布十余年以来,已成为淬炼图像处理算法不断升级的试金石。2010-2017 连续开展八年的 ImageNet 全球挑战赛,推动了物体识别平均准确率等 AI 领域关键指标不断提升,更让深度学习算法自 2012 年在此舞台之上大放异彩,进一步引发了人工智能领域的革命。

众所周知,ImageNet 包含 1500 万张带标注的图像,工程十分浩大。帮助李飞飞完成这一壮举的,是当时刚刚兴起的社区概念——众包。可以说,众包一直在人工智能领域扮演着重要角色,一定程度上加快了这一领域的历史进程。

但与此同时,社区并没有止步于众包,而是向前又走了一步。昇腾计算产业的成员企业华为,提出了一种新的模式——众智,汇聚企业、高校、科研院所等组织的力量,做硬核开发。2021 年 3 月 18 日,昇腾众智计划正式上线。

众智类似于众包,但又不同于众包。众包是繁复的人力投入,而「昇腾众智」意在通过「硬件开放、软件开源、使能伙伴」的方式,激发开发者的智慧,在网络模型开发、算子开发以及行业参考设计开发等几类项目上进行创新。

此外,「昇腾众智」计划还关注后续的人才培养以及开放平台、社区的建设和发展,这就改变了传统众包「交付即终点」的模式,对开发者的个人成长甚至整个社区的发展都有着更加深远的意义。

为何众智?如何众智?

3 月 13 日,国家发布了「十四五」规划纲要。纲要指出,「十四五」期间,我国将通过一批具有前瞻性、战略性的国家重大科技项目,带动产业界逐步突破前沿基础理论和算法,其中就包括深度学习框架等开源算法平台的构建以及学习推理决策、图像图形、语音视频、自然语言识别处理等领域的创新与迭代应用。由此可见,加快国内人工智能的发展在国家战略层面正变得越来越重要。

过去几年,昇腾计算产业已构建起完整的全栈 AI 软硬件平台,包括基于昇腾架构的系列硬件,异构计算架构 CANN、深度学习计算框架 MindSpore 等软件平台。通过上述平台构建的AI基础设施,涵盖纲要中提到的图像、语音、自然语言处理等多项技术,可以加快医疗、能源、交通、制造等多个行业的智能化升级。

AI 模型和基础软件都是高度依赖生态建设的项目,无法依靠单一力量来完成,需要汇聚开发者,共同打造昇腾计算产业生态。

在过去的 2020 年,昇腾社区从学、练、用、考、赛等维度为开发者提供了完善的软件资源、专业培训、技术支持、生态政策和产品方案,上线了 50 多个开发者系列课程、1008 本学习资料、100 工具与样例、100 模型,MindSpore 开源开发者已突破 10 万 人。

虽然已经取得了一些成绩,但要想加快这一进程,昇腾需要整个社区的力量来共同托举,这也是「昇腾众智」计划诞生的初衷。

那么如何「众智」呢?

具体而言,「昇腾众智」主要涉及的是异构计算架构 CANN 算子开发、主流深度学习网络模型(基于 MindSpore、PyTorch 等)开发和行业参考设计开发等。

这些需求都以项目的形式发布在「昇腾众智」的官方页面上,每两周刷新一次。近期公布的 140 个项目需求包含 MindSpore 数据增强算子、MindSpore 模型等,涵盖文本、图像、视频、自然语言、目标检测等多个领域。

打开「项目任务书」,我们可以看到项目的具体细节,包括任务描述、知识背景要求、任务要求、任务清单、开发指导等内容。对该项目感兴趣且符合要求的开发者可以填写与自身情况相对应的申请表。

和「众包」、「外包」不同的是,在「昇腾众智」计划中,参与任务的开发者和昇腾之间并不是「冷冰冰的业务关系」,而是一种并肩作战的合作关系。如果你在开发中遇到问题,你可以随时向昇腾的专家寻求帮助。这种帮助包括但不限于硬件、软件、技术指导和答疑等。

群策群力,多方受益

前面说到,在「昇腾众智」计划中,开发者与昇腾之间是一种并肩作战的合作关系,合作的目的是创建一个强大的生态和社区。这就意味着,参与「昇腾众智」的开发者甚至整个社区都将从中受益。

开发者包含高校师生、科研机构研究者、企业开发团队等多个群体。对于这些群体来说,他们收获的不仅仅是项目交付后的奖金激励和项目开发期间的算力资源支持,还有昇腾颁发的荣誉证书(优秀开发团队和个人将受邀参加华为旗舰大会)以及华为招募引进人才的优先权等。

其他的潜在收益还包括项目经验积累、创新研究项目合作以及行业影响力的提升等。

以高校为例,高校是一个偏重学术的环境,「昇腾众智」将更多的真实项目带进校园,使得学生有更多的机会接触真实的业务场景,得到业内专家的指导,从而加深对于 AI 的理解,沉淀更多的实践经验。

科研院所和企业有所不同。科研院所汇聚了一大批优秀研究者,但在算力、场景扩展、科研创新等方面也需要一些外部支持,「昇腾众智」恰好可以在这些方面提供支持,满足科研机构在多个方面的科研需求。企业所在的行业往往需要配套的行业参考设计,在昇腾的技术支持下,企业可以更快地开发自己行业所需的参考设计,提升自身的行业影响力。

除了这些,「昇腾众智」对于整个人工智能社区也有很重要的意义。一方面,这些项目开发完成后将在昇腾社区开放,供所有开发者下载使用,免去开发者重新写代码、训练模型的麻烦,加速社区的发展进程。另一方面,昇腾社区、MindSpore 社区与其他开源开放社区可以借助这一项目建立紧密的联系,为高校、科研机构、企业和开源社区的成员搭建一个广阔的交流、合作平台,共同加速 AI 社区的发展。

以上几点在本月初启动的「OpenI 启智 & MindSpore 集结号」活动中已经有所体现。这一活动由 OpenI 启智社区和 MindSpore 社区共同举办,旨在集中高校开发者合作开发 MindSpore 高性能模型(模型众智)。

中国工程院院士、鹏城实验室主任、北京大学博雅讲席教授高文在「集结号」活动中讲话。

其实,早在「集结号」活动之前,「昇腾众智」就已经开始了一些小规模的探索,这些探索为计划的正式上线蓄积了力量。自去年启动昇腾众智计划以来,已有浙江大学、上海交通大学、西安交通大学、中国科学院等超过 40 所高校和科研机构参与其中(排名不分先后)。他们已经完成 484 个 PyTorch 算子分析、368 个算子开发、15 个 MindSpore 模型交付和 2 个 PyTorch 模型交付,行业参考设计的众智活动也已经完成试点。

十几年前,ImageNet 让我们看到了群体力量的伟大;如今,昇腾不止要利用这股力量,更想要挖掘其中的「智慧」,创造一种新的 AI 开发模式。

目前,「昇腾众智」的初步目标是通过线上、线下两种方式聚集 200 团队、2000 开发者。如果你愿意贡献自己的开发「智」力,聚昇腾之势,可点击「阅读原文」进行报名。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

0 人点赞