芯片创新如何成为AWS成功背后的 "秘诀"

2023-02-16 14:39:30 浏览数 (2)

简介

全文来自于AWS,P4君编译整理,字节跳动们造芯必读,知其然知其所以然。

AWS副总裁兼杰出工程师、亚马逊于2015年收购的以色列芯片制造商Annapurna Labs的联合创始人Nafea Bshara非常低调,他的朋友-Annapurna的联合创始人Hrvoye(Billy)Bilic也是如此。

每个高管在LinkedIn上的资料都很少,而且,Bilic的资料已经过时了。

"我们几乎不做任何采访;我们的理念是让我们的产品来说话,"Bshara解释说。

自2015年以来,这些产品和芯片创新已经“声声振林樾”,因为收购团队完成了五代AWS Nitro系统的开发,三代(1、2、3)基于Arm定制设计的Graviton处理器,完成用于数据密集型工作负载,以及AWS Trainium和AWS Inferentia芯片,其可以用于机器学习训练和推理优化。

行业分析师们将Annapurna Labs推出的芯片描述为AWS的 "秘方"。

Nafea的芯片之旅开始于以色列的Technion大学,他获得了计算机工程专业学士和硕士学位,并在那里结识了Hrvoye。然后,两人同为以色列的Galileo公司工作,Galileo是网络交换机和路由器控制芯片的先驱,于2000年被美国Marvell公司收购,Bshara和Bilic继续服务了十年,然后决定独立创业。

"我们一起开发了至少50种不同的芯片,"Bshara解释说,"所以我们有成功的经验,有对客户需求和市场动态一手的了解。我们看到一些细分市场没有很好的解决方案,在我们的家庭以及朋友Avigdor [Willenz]和Manuel [Alba]的资助支持下,我们成立了Annapurna Labs。"

那还是2011年年中,三年半后,亚马逊收购了公司。两位创始人在亚马逊继续他们的辉煌,团队的工作证明了自己的价值。

去年,行业分析师David Vellante盛赞了AWS的 "系统架构革命"。

"如同AWS在上个十年定义了云运营模式一样,我们相信它在未来的系统中会再次处于领先地位。支撑这些创新的秘诀是特殊化的设计......我们相信这些工作使AWS能够跨越云、数据中心以及近端和远端边缘场景的多样性。"

以下为Amazon Science与Bshara讨论Annapurna的历史、公司和行业在过去十年中的发展情况以及未来的前景。

Q. 你在11年前共同创立了Annapurna Labs。为什么是Annapurna?

A. 我与我的长期合作伙伴Billy共同创立了这家公司,还有一群拥有共同愿景的工程师。我们创办Annapurna Labs是因为当时我们看到每个人都在追求手机、智能手机和平板电脑的淘金热,芯片行业在基础设施和数据中心方面的投资微不足道。

我们认为该行业对移动设备的投资指数过高,而对数据中心的投资不足,数据中心市场没有得到充分的重视。再加上大家对芯片开发过程中低效的方法越来越失望,特别是与软件开发相比更加明显。在过去的25年里,软件开发人员的生产力有了很大的提高,而芯片开发人员的生产力自90年代以来没有什么提高。在评估机会时,我们看到了一个服务不足的数据中心市场,以及一个以更高的生产力和更好的商业模式来重新定义芯片开发的机会。这些因素促成了我们创办Annapurna Labs。

Q. 在过去11年里,芯片行业发展如何?

A. 虽然有点晚,但芯片行业还是意识到需要解决生产力和上市时间的问题。Annapurna一直是推动生产力和上市时间的先驱,许多公司也在追随我们的步伐,引入以模块为中心的开发思维,类似于软件行业向面向对象和面向服务的软件设计转变。

芯片公司现在已经进入我们称之为以IP为导向,按设计来修正(correct-by-design)的方法。其次,芯片行业已经采用了云计算,云的引入使得芯片设计所需的计算能力大爆发。利用云,我们能够以 "突发 "的方式并行使用计算。如果没有云,芯片行业就无法提供我们今天所做的芯片。这些都推动生成一个健康的市场,就像软件公司可以从开源或库供应商那里购买库文件一样,芯片公司也不需要在内部从头开始研发。这个行业已经成熟到现在有一个健康的商业模式,可以从Arm、Synopsys、Alphawave或Cadence等供应商那里购买设计模块或IP。

Q. Annapurna实验室是以喜马拉雅山最高的山峰之一命名的,它被认为是最危险的山峰之一。你必须要攀登的最高峰是什么?

A. 我在彩云之上,我不需要攀爬任何东西[笑]。Billy和我选择Annapurna Labs这个名字有几个原因。首先,Billy和我最初计划在创办公司之前攀登Annapurna。但后来我们对创立公司想法感到兴奋,获得资金后突然间时间变得很紧迫,所以我们搁置了登山计划,开始了新公司。我们把它叫做Annapurna,因为在当时,即使在今天也是一样,创办一家芯片公司的门槛很高。挑战严峻风险高,所以它就像攀登Annapurna一样 。我们也相信,我们希望达到一个高于云层的位置,在那里你可以非常清楚地没有干扰地看清事物。这一直是我们公司的一个口号:Avoid the clutter,放眼未来,了解客户的真正需求,而不是被日常的“噪音”所干扰。

Q. 在设计用于机器学习训练和推理的芯片时,与普通的CPU设计相比,你们面临的独特挑战是什么?

A. 首先,我想强调的是,我们不必担心什么挑战:我们拥有强大的基础、方法学和工程力量,已经提供了多代Nitro,在大批量并且高质量地设计制造芯片方面我们对自己的能力非常有信心。因此,这件大事我们不需要担心。为机器学习设计芯片是我有幸参与的最具挑战性,但也是最有价值的任务之一。现在对机器学习的需求永无止境,所以任何拥有好产品的人都不愁找到客户的需求。需求就在那里,但也有一些挑战。

首先是客户想要'切到好处'的解决方案,因为他们还要面对科学方面的挑战性工作。因此,他们正在寻找从现有的比如说基于GPU的机器学习,平滑迁移到AWS Trainium或AWS Inferentia。我们最大的挑战是隐藏所有的复杂性,所以我们内部称之为“无聊”的迁移。我们不希望我们的客户,这些科学家和研究人员还需要考虑从一个硬件迁移到另一个硬件。这是一个挑战,因为既有GPU,特别是英伟达已经在技术方面拥有广泛群众基础。客户不应该看到或体验到我们在开发芯片方面所做的艰苦工作;客户应该体验到的是,过渡到Inferentia和Trainium是透明和平滑的。这是一项艰巨的任务,也是我们作为一个团队的内部挑战之一。

第二个挑战更多来自外部,科学和机器学习发展非常快是个事实。作为一个提供硬件的部门,我们的工作是预测客户在三、四、五年后会需要什么,因为一个芯片的开发周期可能是两年,然后被部署三年。生命周期大约是五年,试图在这个时间跨度内预测科学家和机器学习的需求将如何发展是很困难的。与CPU不同的是,其工作场景变化速度并不快,机器学习要跟上时代的步伐是一种艺术。在执行力和成本的高效性方面,我给我们自己打了高分,但不是满分,因为还需要未来来证明。这是一门艺术,既要预测客户三年后的需求,又要按时间和预算执行。这些东西只能靠经验,而我很幸运地成为一个伟大团队的一部分,这个团队有经验在成本、进度和面向未来的产品之间取得适当的平衡。

Q. 在最近的re:MARS会议上,亚马逊高级副总裁兼Alexa首席科学家Rohit Prasad说,语音助手每周与客户互动数十亿次。Alexa由EC2 Inf1实例提供动力,这些实例使用AWS Inferentia芯片。为什么Alexa的工作利用这种专门的处理方式比利用更通用的GPU更有效?

A. 我们想把亚马逊的技术带给尽可能多的人,Alexa是其中之一。这也是亚马逊生态的一个很好的例子;使用它的人越多,它提供的价值就越大。我们的目标之一是以尽可能低的延迟和尽可能低的成本提供这项服务,并随着时间的推移改进Alexa背后的机器学习算法。当人们说改进Alexa时,它实际上意味着在保持性能和低延迟的情况下处理更复杂的机器学习,更复杂的模型。使用Inferentia芯片和Inf1,即实际承载所有这些芯片的EC2实例,而不是一个标准的通用芯片,Alexa能够以更低的成本和延迟运行更先进的机器学习算法。并不是说通用芯片不能做这项工作,而是完成同样的工作它会带来更高的成本和延迟。有了Inferentia,我们提供更低的延迟,并支持更复杂的算法。这使得客户对Alexa有更好的体验,并从更智能的Alexa中受益。

Q. 人工智能被称为新的电力。但是,随着你刚才讨论的ML模型变得越来越大,越来越复杂,人们也担心AI模型训练和推理的能源消耗会对环境造成破坏。在芯片层面,可以做些什么来减少ML模型训练和推理对环境的影响?

A. 对于EC2,我们在芯片层面现在正在做的实际上有三个方向。第一个是通过使用更先进的硅工艺来快速降低功率。我们每次用先进的硅工艺制造一个芯片时,采用更小晶体管尺寸的新工艺可以使同样的工作消耗更少的功率。在高效执行力的保证下,我们每隔18个月左右就能向EC2客户提供更先进、更节能的硅工艺的新芯片。

第二个方向是积累更多的技术,以便在硬件和算法中加速,从而更快地完成训练和推理。我们能够处理训练和推理的速度越快,所消耗的电力就越少。例如,我们在上一代Trainium芯片中创新的技术之一是一种叫做随机四舍五入的技术,根据对神经网络任务的衡量,它可以将神经网络训练的速度提高30%。当时间减少30%,就意味着减少30%的功耗。

我们在算法层面上做的另一件事是提供不同的数据类型。例如,传统上机器学习使用32位浮点。现在我们提供多个16位的版本和部分8位的版本。使用这些不同的数据类型,不仅加速了机器学习的训练,还大大降低了相同工作量下的功耗。例如,在16位浮点上做矩阵乘法,总功耗不到32位浮点时的三分之一。在算法层面上增加诸如随机四舍五入或新数据类型的能力,为相同数量的工作任务提供了阶梯函数式的功耗改进。

第三就归功于EC2和Nitro系统。我们为客户提供了更多的选择,有不同的芯片为不同的工作任务进行优化,客户节省功耗的最佳方式遵循亚马逊的经典台词--the everything store一云打尽。我们提供所有不同类型的芯片,包括多代Nvidia GPU、英特尔Habana和Trainium,并与客户分享托管这些芯片的每个实例的功率情况和性能,因此客户可以为工作任务选择合适的芯片,并以最低成本优化为足够低的功耗。

Q. 我主要关注的是机器学习。但让我们把注意力转向在云中运行的更多通用工作,以及你在亚马逊EC2的Graviton处理器上的工作。

A. 是的,在某种程度上Graviton与我们在机器学习方面的工作正好相反,因为我们的重点是为在EC2中运行的通用工作任务构建服务器处理器。通用芯片的市场已经存在了三四十年,而任务本身并没有像机器学习那样快速发展,所以当我们开始设计时,我们的目标很明确。

因为行业的这一部分没有发展得那么快,我们觉得我们的挑战是让这个行业发展得更快,特别是在性能、降低成本和功耗方面提供逐步的功能改进。有很多时候,特别是对芯片而言,当你制定计划时,最初的计划是美好的,但随着开发的持续,你必须做出取舍,而实际产品与最初的承诺相差甚远。对于第一代Graviton,我们经历了相反的情况;我们惊喜地发现,性能和功率效率都比我们最初的计划要好。这在我们的行业中是非常罕见的。

Graviton2的情况也是同样。正因为如此,亚马逊内部将大量的一般性工作任务都转移到Graviton2上,主要是为了节省电力,但也是为了节省成本。对于相同的工作任务,Graviton2的功耗平均比同代竞争产品低60%,我们正在将这些成本节约传导给客户。在亚马逊之外,AWS前50名的客户中至少有48位客户不仅进行了测试,而且在Graviton2上运行生产任务。

今年5月,Graviton3处理器上市,它是全新的第三代产品。我们有计划推出更多代产品。当听到客户毫不费力就迁移到Graviton,听到所有客户的成功故事,总是令人感到非常满意和有成就感。每天上班,听到数以万计的使用Graviton客户的一些成功故事,令人感到无比的满足。

Q. 你们的招聘网页上有100多个空缺职位。你们在寻找什么样的人才?在Annapurna Labs取得成功的员工有什么特点?

A. 我们正在寻找那些喜欢从事前沿技术工作的人,并以原则优先(principles-first)的方式对待挑战,因为我们所面临的大多数挑战以前都没有碰到过。虽然实际经验很重要,但我们更看重正确的思维和原则优先的心态,或从第一原则出发进行推理

我们也重视那些喜欢在一个动态环境中工作的人,在这个环境中,解决方案并不总是用同样的锤子敲打同样的钉子。鉴于我们的原则第一的方法,我们的许多挑战在芯片级、终端级和系统级得到了解决,因此我们寻求对系统有了解,并能熟练地跨学科工作的人。一个拥有单一学科或单一领域知识的人,如果不愿意通过学习其他领域来挑战自己,就很难在Annapurna取得成功。最后但并非最不重要的是,我们寻找的是那些在团队环境中专注于交付的人。我们认识到想法是 "廉价的",而使之与众不同的是将想法一直传递到生产。想法是一种商品。而执行这些想法则不是。

Q. 我了解到Billy和你的共同信念:if you can dream it, you can do it(你,正如你所思)。那么,你对未来的芯片开发有什么梦想?

A. 这是真的,这也是Billy和我想加入AWS的主要原因,因为我们有一个共同的愿景,即我们可以为客户带来很多价值,而AWS领导层和亚马逊总体上愿意为这个愿景进行长期投资。我们同意被亚马逊收购,不仅是因为资金和我们共同的长期愿景,而且还因为为我们自己的数据中心研发部件将使我们能够快速提供客户价值。我们对这种关系非常满意,原因很多,但主要是因为我们有能力在全球范围内对客户产生影响。

在亚马逊,我们的运营规模和客户的多样性使我们有能力进行特定应用或特定领域的加速。机器学习就是其中的一个例子。我们为亚马逊Redshift做的Aqua(高级查询加速器)是另一个例子,我们为分析提供基于硬件的加速。现在我们最大的挑战是决定优先考虑什么项目。我们并不缺乏提供价值的机会。我们能够采取这种方法的唯一途径就是因为AWS。开发芯片需要大量的投资,而获得良好投资回报的唯一途径是拥有大量的、具有成本效益的开发,而我们已经能够通过AWS发展一个庞大的、成功的客户群。

我还应该补充一点,在加入亚马逊之前,我们认为我们已经拥有长期视角。但一旦你坐在亚马逊的会议上,你就会意识到长期战略思维的真正含义。我每天都在继续学习如何掌握这一点。可以说,我们有一个产品路线图,以及一个延伸到2032年的技术和投资战略。尽管未来有很多不确定性,但有几件事情我们是高度确信的,而且我们正在进行投资,尽管它们可能是十年后的事情。我显然不能透露未来的产品计划,但我们继续代表我们的客户梦想未来。

附:

1、Annapurna Labs背景的另一篇访谈:

武林至尊,宝卡Nitro,号令IaaS,莫敢不从,MOC不出,谁与争锋!

0 人点赞