源1.0的“大”时代:算法底座变革激活智算新生态

2022-08-30 15:05:01 浏览数 (1)

大数据蹲,大数据蹲完大算力蹲;大算力蹲,大算力蹲完大模型蹲……

一场席卷整个业界的大型“萝卜蹲”游戏已持续多年,迄今仍意犹未尽。

此起彼伏的高潮,潜藏着这样的逻辑:面对数据总量每年翻5~10倍的指数级增长,数据的采集、标注、分析及深度挖掘自然成为首要任务;而大数据行至中局,算力不足的矛盾愈发突出,AI服务器、智算中心等算力基础设施的升级迫在眉睫;当算力短板逐步补齐,离散化的应用场景和低效的开发能力又成掣肘,于是把大模型推到了舞台中央。

从谷歌于2018年发布BERT起,大模型的热度就直线攀升。2020年,OpenAI的NLP大模型GPT-3达成千亿级参数规模,除展示能写会算的才艺外,其在小样本和零样本学习领域表现出色,让人们看到了大模型应对碎片化复杂场景的潜力。

GPT-3的示范效应引发围绕大模型的超级竞赛,千亿级才起步,万亿级不是梦。在近日北京举办的人工智能计算大会(AICC)2021上,全球最大规模中文人工智能巨量模型 “源1.0”正式亮相,单体模型参数量为2457亿,训练采用的中文数据集达5000GB,相比GPT-3模型的1750亿参数量和570GB训练数据集,又上了一个大台阶。

值得关注的是,“源1.0”并未耽于“以大为美”,而是对外公布了开源开放计划——这标志着算法基础设施的变革正迈向纵深,行业数字化转型有望进一步提速。

智算生态背景下的大模型突破

近几年来,伴随大数据、AI、物联网等新兴技术的协同发展,数字化与智能化的结合更为紧密,“数智化”、“智慧计算”等提法尽管来源不同,内涵和外延也略有差别,但其核心所指殊途同归。

IDC最新发布的《2021~2022中国人工智能计算力发展评估报告》显示:全球已有60多个国家和地区发布AI战略,以持续的算力、算法创新推动AI与传统行业的融合。AI在整体计算市场占比逐年提高,全球增长的AI计算支出50%来自中国。

以占据AI基础设施市场80%以上份额的服务器为例:预计2021年中国AI加速服务器市场规模将达56.9亿美元,相比2020年增长61.6%;到2025年,这一市场规模会达到108.6亿美元,复合增长率为25.3%。

显而易见,国内厂商已成为推动增长的中坚力量,浪潮信息在全球AI服务器市场占有率连续多个季度排名第一。服务器的领先只是序曲,浪潮信息在异构计算、深度学习框架、AI算法等领域实现了系统性突破。

在算法框架上,浪潮先后推出深度学习并行计算框架Caffe-MPI、TensorFlow-Opt,以及业界首个FPGA高效AI计算开源框架TF2等;同时,在顶级AI赛事上也捷报频传,累计获得56个MLPerf全球AI基准测试冠军;参与CVPR、NIPS、GAIIC等国际大赛,在多模态视觉问答、大场景多对象检测和自动机器学习等方面表现优异。此外,浪潮还连续三届担任国际基准评测组织SPEL ML技术委员会主席,推动国际开放AI基准评测的建立。

中国工程院院士、浪潮首席科学家王恩东

做好全方位的准备,才能去啃最硬的骨头。如何从专用智能迈向通用智能,是困扰产业界多年的难题。中国工程院院士、浪潮首席科学家王恩东认为,“目前来看,通过大规模数据训练超大参数量的巨量模型,非常有希望实现向通用人工智能的跃迁。”

不难看出,“源1.0”可谓生逢其时,重任在肩。

以NLP为切入点构建多场景AI能力

算法、数据及精度,是衡量巨量模型先天禀赋的三大维度,综合评估后的结果将决定其未来所能企及的天花板。

在参数量和数据集上,“源1.0”拥有比较明显的优势:其参数量超过GPT-3的幅度高达40%;数据集方面,“源1.0”爬取2017~2021年的网页数据、公开中文语料库、中文百科及电子书等,经过清洗及处理,最终获得5000GB高质量数据集,是GPT-3的近10倍。

从某种意义上讲,精度是巨量模型实战能力的试金石,“源1.0”也经受住了考验,获得权威中文语言理解评测基准CLUE榜单的零样本和小样本学习两类总榜冠军——在零样本学习的文献、新闻、商品分类和原生中文推理、成语阅读理解填空、名代词关系中问鼎,并在小样本学习的文献及商品分类、摘要识别、名代词关系上折桂。

在对“源1.0”进行的图灵测试中,将其生成的对话、小说续写、新闻、诗歌、对联与人类创作的作品进行混合后,由测试人群进行分辨。结果表明,在绝大多数领域,人群能够准确分辨人与“源1.0”作品差别的成功率均低于50%,“假作真时真亦假”已成现实。

在产学研共同发力、多方出击的背景下,各种大模型的基本定位和发展方向趋于多元,有时也有乱花渐欲迷人眼的困扰。“源1.0”基于自身特点,更专注于自然语言处理(NLP),并面向多场景构建AI能力。

NLP模型被誉为“人工智能皇冠上的明珠”,在各行业数字化转型中得到广泛应用。“源1.0”可以创建任何具有语言结构的东西,如自动问答、撰写文章、提炼文本、翻译语言等,甚至可以生成编程代码。它还能产生创作“灵感”,理解文字背后的含义,并从文本中抽取关键信息。

智能客服是NLP最典型的杀手级应用场景,“机器人”可以从对话中感知客户情绪,随需应变满足客户需求,提供优质服务。“源1.0”将其进一步扩展至更多领域,例如运营商的智能运维、智能办公中自动生成报告、在手机和互联网中自动对话的智能助手,以及文字识别、文本搜索、翻译等场景。

据浪潮人工智能研究院首席研究员吴韶华透露,“源2.0”已在筹备中,在聚焦NLP的基础上,后续将在多模态、视觉等方向上进行探索。

以开源开放应对发展难题

虽然大模型的价值已被普遍认可,但其征途依然充满变数。比如深度学习的不可解释性、数据拟合的统计学缺陷、训练成本居高不下、能源消耗持续增长等,这些问题不会在短时间内找到答案,更不可能由单个厂商解决,开放合作是唯一出路。

在AICC 2021大会上,浪潮推出 “源1.0”开源开放计划,范围涉及模型API、高质量中文数据集、模型训练及应用代码等,并将推进面向国产AI芯片的模型移植开发。在大模型领域,这样的开放力度前所未有,也表明了浪潮直面挑战的决心。

浪潮信息副总裁、AI&HPC产品线总经理刘军

接受《IT创事记》采访时,浪潮信息副总裁、AI&HPC产品线总经理刘军表示:“智算呈现多元化、巨量化、生态化的发展趋势,平台创新和开放生态是算力高效释放的核心。源1.0倡导产、学、研、用携手,共同建设健康的智能生态。”

据了解,“源1.0”开源开放计划的合作对象主要包括大学和科研机构的人工智能研究团队、各地智算中心和元脑生态合作伙伴。在今年4月举办的IPF2021上,浪潮发布元脑生态平台AIStore,聚合芯片和算法公司等“左手”伙伴优质的技术和产品,再借助ISV、SI等“右手”伙伴推进行业应用。“源1.0”无疑为“左右手”的协同提供了新的抓手,AI加速落地可期。

从更广阔的视角来看,“源1.0”大幅降低巨量模型研究和应用的门槛,有望催生算法基础设施变革,促进AI产业化和产业AI化,助力千行百业抵达智算盛开的彼岸。

0 人点赞