解放算法工程师,让他们专心AI吧

2022-06-16 20:55:19 浏览数 (2)


搜狗的中文语音识别准确率目前已达业界最高水准,这一成绩在很大程度上得益于搜狗输入法与搜索引擎带来的数据优势。

“搜狗目前积累的人工标注的语音数据量以万小时计。”在上周一次聚焦人工智能平台的研讨会中,搜狗语音交互技术中心技术经理刘忠亮说,这些数据支持了搜狗语音识别算法的迭代,也为搜狗定义知音OS和深智引擎两大产品提供了基础。

它们更底层的基础是AI的基础设施。这也是NVIDIA和慧与新华三主办这一平台研讨会时乐意请搜狗分享经验的原因——作为NVIDIA和慧与新华三的共同用户,搜狗的经验是会场中一个可供参考的典型。

目前支持搜狗人工智能战略的主流算法都被置于其深度学习平台EVA之上。基于该平台,搜狗做到了为大量上层应用提供服务,包括语音识别、语音合成、图像识别、机器翻译、唇语识别等。

在EVA之下,搜狗应用了大量NVIDIA和慧与新华三的产品,这就包括了新华三搭载NVIDIA GPU的服务器Apollo 6500 System等。

现场参与研讨的用户嘉宾显然很乐于听到这些故事。现在,没有一家传统行业用户不关心AI——他们看到了AI之于传统行业的价值前景,但在平台层,乃至基础设施层上,远无法像互联网公司那样表现得游刃有余。

新华三集团技术战略部资深专家 徐心平

“主要的障碍是缺乏GPU或者说是AI系统的支撑平台。”新华三集团技术战略部资深专家徐心平说。显然,缺少这样的平台,专业算法工程师想利用好GPU服务器是有难度的。

如今,这个平台的搭建工作已经很大程度落在了基础设施提供商的身上。

这里需要理清的,是非互联网企业的诉求核心——它对应了人工智能平台需要具备的核心能力:一是复杂的数学计算,它对应了高性能的服务器;二是并行计算技术,无论深度学习还是机器学习,这一点不可或缺。

“AI平台一定围绕这两点做上层功能的设计。”徐心平说,用户将借此充分获得GPU服务器提供的AI计算能力。

对于搜狗这类技术能力卓越的互联网公司,具备相应设计能力并不成问题,而对于数量庞大的传统行业用户而言,问题则往往要复杂许多。

支撑多业务运营的重要性不言而喻——大多数企业用户都会希望基于一套基础设施为多个项目组提供共享资源,这将让每位算法工程师可以自由地获取资源。

参数配置也并非易事。区别于公有云提供的服务内容,基于私有云的多租户需求对应了复杂的参数配置。

“这些问题的复杂度对于算法工程师而言太难了。”徐心平接触的大量用户需求让他意识到了平台的一个重要的价值点:平台需要可以自动化完成相关工作,例如让算法工程师可以随时启动容器环境做科研。

“要让算法工程师去做自己擅长的事。”徐心平说,资源调配的工作,“可以交给新华三”。

徐心平业务所聚焦的对象是新华三的AISO人工智能管理平台。该平台被包含在新华三为公共科学计算所设计的解决方案中。

基于底层的资源池,AISO向上服务多用户对不同计算环境的共享需求,无论高性能计算、深度学习,或者机器学习——它们有着不同的计算框架,对资源调度和计算的需求千差万别。

从资源的隔离和共享,到多种计算框架支撑,以及覆盖从数据到推理的数字化流程,AIOS做到了让自己看起来就像是一条AI模型的自动化生产线。

这种面向业务的、经过调试的生产线,封装了常用的计算开发环境,足以让企业用户“分分钟”启动所需资源。“在应用AIOS前,用户调试同类环境可能需要一周以上。”徐心平说。

显然,更加完整的方案对应着着更高的效率。围绕以GPU为核心的AI基础设施解决方案,慧与及新华三集团与NVIDIA在全球建立了合作关系,这让前者可以为用户提供一个完整的、充分调优的AI基础设施解决方案。

目前,新华三针对AI基础设施部分的产品线有着完整的覆盖——由GPU服务器、GPU存储与网络,以及GPU系统软件等构建了一个完整的GPU集群。

“在现实中,运行时GPU利用率只有30%的情况并不罕见,这里的问题在于优化水平。”新华三集团工业标准服务器 GPU产品经理姚宏说。

企业用户要想获得优秀的AI基础设施平台,优化良好的GPU集群系统中,一个关键指标就是系统满负载运行时GPU的利用率。

这里的产品核心,自然是GPU服务器。

面向用户不同的AI应用需求,新华三目前提供了两类GPU服务器,一是针对深度学习与并行计算需求的自主品牌的H3C UniServer R5200G3,和HPE品牌的Apollo 6500 System;另一类是针对机器学习推理预测的R4900 G3服务器。

在这些产品中,自主品牌的R5200G3 GPU服务器是新华三在人工智能领域的主打产品。这款4U的服务器产品,可支持10颗双宽高性能GPU或20颗单宽GPU。

值得一提的是,R5200G3针对CPU/GPU异构计算特点,采用了优化PCIE3.0多链路通信设计,这让其可以实现GPU之间高速低延迟的数据通信能力。

这一主打产品的优势在其面市半年后便显现出来。包括银行业众多的大客户,以及电力系统用户,都开始逐步基于R5200G3构建自己的AI基础设施资源池。

- END -

【IT创事记】创见科技未来,旨在为读者提供科技企业和科技趋势的前瞻分析与评论。创始人祁萌,为资深科技自媒体人,曾任《商业伙伴》副总编、《电脑商报》主编、都市媒体记者编辑,从业超过14年。

【IT创事记】同名专栏入驻各主流媒体平台。


0 人点赞