对话遇贤微: 一家国产Arm服务器大芯片初创公司的底气

2022-09-02 11:17:12 浏览数 (2)

随着数据中心的变革,这股国产“大芯片”创业浪潮也正在从AI芯片,GPU、DPU涌向CPU,这引起了国内外的广泛讨论。特别是在数据中心CPU方面,因为在过去十多年里一直是由英特尔X86处理器垄断的市场,这就使得国内的这波创业潮获得了高度关注,有投资者甚至将其称之为“最后一颗大芯片投资机会”。

为什么大家对Arm服务器芯片关注度那么高?它们的门槛又在哪里?其是否真的有实力叫板英特尔?带着这些疑问,半导体行业观察记者拜访了半导体Arm服务器CPU初创企业遇贤微 [一家成立之初就获得了知名机构和行业大咖们认可及支持的行业先行者] ,并与该公司创始人罗勇博士、首席架构师陈争胜和研发副总裁彭亮等进行了一番交流,力争与大家分享Arm服务器芯片繁荣的台前幕后。

大有可为的服务器CPU市场

Q

服务器CPU这颗芯片的市场规模有多大?

罗勇博士:这颗CPU在中国是600亿市场规模,云计算是主要场景,比GPU的市场规模还要大很多,随着数据和算力需求的增长,到了2030年国内预计达到1500亿规模,目前市场集中度非常高,能供应的公司不多,这也是英特尔的核心造血业务。

因为这是一颗设计难度高、人才密集度高、交付周期长的产品,难度高在指定的目标内、完成高性能的设计。因为软件兼容性的要求,在2010年,只有x86是可行。最终客户软件只能跑x86的芯片。经过从2010年到2020年10年行业攻关,完成了x86向Arm架构的软件移植,现在云计算软件平台和服务器可以支持Arm架构和x86架构。这是遇贤和美国的Ampere都可以基于Arm架构来研发高性能服务器CPU的基础,客户需要一个更适合云计算的CPU,现在也可以规模化的部署这个产品。

算力的增长,CPU的需求量持续增加。同时也需要更加强大计算能力的CPU,可以在有限的数据中心里面增加算力密度。对研发公司的要求,要提前预判市场的需求,按照同期高性能的要求来做研发。

Q

同样作为大芯片,和这几年已经炙手可热的GPU相比,CPU被一些投资人称为最后一颗大芯片投资机会,那么GPU和CPU的创业有什么差异?

罗勇博士:同样作为大芯片,GPU的火爆在于人工智能、大数据对于算力的需求,而GPU适用于AI的训练和推理,CPU实际上真正承担了云端主要常规算力。大家以前之所以忽略CPU创业,是因为在这个赛道,英特尔的x86一直以来占据霸主地位,直到今天ARM化的大潮流的成型,才让大家看到了革命的大机遇。对比GPU,CPU在服务器端的市场规模更大,而从技术落地的角度而言,做GPU创业的公司都无法回避的难关是开发新的软件系统或者兼容CUDA,英伟达的CUDA是独有的封闭生态。芯片公司投入人力开发一个新的软件系统,熟悉新软件系统的人才又需要很长时间培养。建立新软件、新人才、规模应用这个正向循环的挑战非常大。而CPU不一样,云计算软件是一个完全开放的生态系统,上下游已经成熟,换句话说,GPU做出来,距离客户去学会你的软件,去开发,去应用,需要很多努力,而Arm CPU做出来,客户就可以即买即用了,可以说服务器CPU是能够实现商业落地的大芯片。在过去10年的ARM架构云计算移植中,我们团队核心成员是主要的推动力量。大家推动了这个时期的发展,而不是搭便车。

Q

服务器CPU跟PC的CPU有什么不一样?能否直接用?

彭亮:服务器CPU和PC的CPU两者都是设计难度极高的芯片,但存在的差异也是很大,主要体现在CPU算力、接口多样化、功耗要求、封装技术、RAS(可靠性、可用性、可维护性)、物理实现难度等,另外软件生态也非常不一样,这些都需要长期的知识积累才能得到其中的know-how,所以是需要有专注在某个方向的团队才能把这两种不同类型的CPU芯片做好。

陈争胜:对的,从技术上看,PC的“CPU”是一种典型的SoC架构,其架构更分化,芯片上会集成有CPU Core、Graphics Processor、Nerual Processor,这每一个Processor都有自己的生态要求。而云计算CPU聚焦在CPU 单元的弹性扩展和服务器平台需求。云计算CPU需要考虑怎么有效降低整个数据中心整体的TCO、怎么满足日益严苛的云端数据安全的问题等。从微架构上看,这两者对CPU Core的要求上也不一样,PC的处理器规模小,线性扩展容易做,而云计算场景要求集成大量的计算单元,大规模并发的资源冲突和性能瓶颈是必须解决的问题。因此二者技术攻关的问题是不一样的,云计算CPU需要解决更多难题,比如超多核线性度问题、复杂多变的应用场景带来架构弹性问题,如何满足高可靠性应用等等。从目前成功的商业策略上看,都是要采用不同的产品线来覆盖这两个市场,每个产品线要非常专注,是两个不同的赛道。

Arm的新机遇和挑战

Q

过去那么多年X86都占绝对份额,您怎么看ARM的这轮切换,为什么认为这是未来?

罗勇博士:

a)全球云计算CPU的趋势

其实全球的服务器市场,一开始并不是大家理解的这样。服务器市场在1990年代是百花齐放的,当时由市场公司主导,做系统、芯片、软硬件一体化的服务器方案,当时代表性的架构是SUN SPARC,IBM Power, DEC Alpha等多样化RISC系统,一台服务器要卖10万美金以上。我在1999年加入英特尔,从那时候就在英特尔架构团队将原本用于PC市场的奔腾处理器,“改装”成服务器用的CPU,我们大概花了3代的时间,将这个产品真正推向市场,数据中心此时也正在经历大变革,互联网公司崛起,英特尔联合服务器整机品牌,将服务器价格从百万级别打到20万级别,分享了互联网时代的数据红利,于是2010年英特尔就拿下了90%服务器市场份额,成为了服务器CPU的绝对龙头,伴随而生的是,浪潮、Dell等整机厂的崛起。

图:2000年-2010年 服务器x86架构渗透率变化

b)变化的核心原因

这一轮会产生架构切换的原因,与二十年前一样,云计算和云原生的崛起,算力需求在爆发式扩张,本身云计算对CPU的需求却变成小核高性能化、多核虚拟化、功耗更低,“经济适用”。ARM架构CPU在这些点上都有着独到的优势。Arm架构单片可以集成超过150个核。这对于云计算公司就变成了一笔非常划算的买卖。

所以过去十年arm和软件公司、CPU公司、生态公司,一个个软件去推动适配,才在2019年前后,伴随着华为鲲鹏、亚马逊的arm cpu规模化应用,最终实现了全行业的架构更迭。

全球最大云计算厂商亚马逊在自己云计算的ARM架构CPU Graviton真正部署起来,并且占到自己数据中心绝对量的20%,这是ARM架构CPU在云计算/服务器行业上量的标志性转折点。包括近期,谷歌也宣布了采用ARM架构服务器CPU,也是业内一个标志性事件。

Q

做这类型大芯片的难点是什么?

陈争胜:对于先进工艺下面积超过100平方毫米这样的大芯片,不仅仅投资巨大,商业门槛高,而且其单纯的芯片技术门槛也很高。要想研发一款商业成功的高性能计算CPU,需要突破的技术限制非常多,比如Memory、IO、Power、Yield以及Frequency等等瓶颈。这里面比较为人熟知的是“Memory瓶颈”,内存带宽的增加速度远远赶不上各种Core的性能增加速度,不合理的架构会导致片上堆叠的Core性能发挥不出来。核数增加,如何保障性能的线性增长,是CPU的一个大难点。我们做过多代处理器,每次都是采用多项创新性技术突破来解决这些难点。

一般的方法,要从整个硬件系统、软件全栈的角度思考如何做最优化的设计,除了CPU架构外,对接的设备,如DIMM、存储设备等,是否可以一起创新来做更优化的设计,还很需要对每个模块技术的掌控。所以,既需要架构上合适的权衡取舍,又需要工程上的精益求精,加上创新性的思维以及长期的经验积累,在技术研发中碰撞解决,通过“系统工程方法论”保障交付。这也是我们几个这十几年一直做大CPU的经验。

实力雄厚的遇贤微

Q

罗博士,是什么样的经历和体会让您这样的前辈走上现在的创业之路?

罗勇博士:我自己北美UBC计算机博士毕业后,就从事高性能计算机架构研究,在美国最大的计算中心做CPU的性能分析和架构优化,特别是推出各种不同架构处理器做一致性的性能标准,便利于我们对不同芯片做针对性的应用架构调整。这个成果对我在99年加入英特尔,把奔腾处理器应用到服务器上,有很大的作用。当时英特尔x86处理器刚刚进入服务器领域。到2000年,国内仍然很少做服务器的公司,我的联合创始人姬信伟当时正在华为美国研究所,请我协助和英特尔服务器研发部门的合作,就这样我们认识,协作推动了国内刀片式服务器的研发、机架式服务器的研发。当时英特尔负责服务器的部门有通信事业部和数字企业事业部,得到两个部门的同意,我在深圳设立研发团队,姬信伟作为科学家和架构师协助我在技术、商务、团队组织上,做了大量的工作,是深圳最大服务器公司最有力的推动人。

图:罗勇博士

我主要的工作在美国总部,在2005年前后,建立并管理了美国、深圳、北京和上海的100多人服务器平台技术团队。这些团队,正是2009年前后推动了x86进入服务器和云计算的一个重要力量,同时培养一批中国大型数据中心的服务器系统人才。不同的处理器架构研发和云计算公司骨干,都有我们团队的成员。像我的联合创始人离开英特尔以后,推动了Arm云计算软件和芯片研发的工作。

中国公司在产业链上有系统集成的优势,而CPU这样的核心部件研发,还在持续发展中。回国后我在兆芯担任高级副总裁,部署国产化CPU的研发和应用,包含PC和服务器。总结起来,我自己将近30年,都是在做服务器CPU的工作,包括研发、应用,行业和企业管理。

我的搭档不同点是他更决断看到Arm架构是未来方向,在离开英特尔后,就投身到Arm架构服务器的事业。在2016年,ARM服务器应用的难点在于软件生态不成熟,于是ARM生态公司Linaro联合ARM、欧美公司,国内的一流芯片公司和云计算公司,主导了全行业的生态演进,协同开发突破RedHat、KVM、Ubuntu等等云计算的软件适配Arm架构的处理器。姬信伟在Linaro做副总裁期间,主要推出了适用于国内Arm架构云计算的参考平台,大幅度推进了国内云计算最终用户的软件兼容Arm架构服务器。

当时我正在做国产CPU,我们俩围绕着如何做CPU、如何做软件、如何做应用、如何有更大的市场份额形成良性的循环做了很多交流。从国产化的角度出发,我认为国内需要走一条符合高性能、通用市场需求的芯片产品道路,同时过去在英特尔实现的x86替换老架构,让我总结了服务器变革的源动力,认为这是二十年一遇的良机;从我合伙人的角度出发,他深度推动和参与了ARM服务器在中国的发展,坚定地认为ARM替代X86的时机已到,而且国内的技术团队中少壮派领袖已经成长起来。所以我们一拍即合,做一款国产、高性能、ARM架构的一流CPU产品,在今天的中国,是可行且必须走的路径。没有创业公司去踏,就由我们这些行业老兵来拉团队先干起来。

另外,我们创立之初对国内的行业做了很多说明工作,特别是创业公司为什么能够做出来、能够做好这颗大芯片。幸运的是,遇贤创始团队都很熟悉服务器和云计算市场,特别是CPU的研发、云计算的需求和产业的演进,并且核心人员在不同的项目中交叉共事过,思维模式和分工都很明确,团队之间有默契和信赖感,所以我们才能走得那么稳健、快速。

这一年半的发展,研发的成果,一流的技术领导团队和精干的研发力量,也证明我们选择是正确的。遇贤微电子——国内第一家做高性能CPU的创业公司,给大家做了表率。我们更要集中精力,致力于我们的初心,做一流的CPU产品和系统。

Q

能否先再深入简要介绍一下咱们核心团队背景?

罗勇博士:遇贤微电子的独特性和团队独特性,正是来自国内涌现出新一代的技术领袖。我们国内已经拥有多家一流的处理器公司,像海思、中兴微电子、展讯。这些公司的核心技术高管普遍都是在过去15年专注于处理器的研发,交付了5代以上的处理器,特别是Arm架构的处理器,每一代有数百万片、上千万片的发货量。我们副总裁陈争胜和彭亮两位80后,是业内第一梯队芯片公司的技术大牛。研究生毕业后就分别在海思团队和中兴微电子团队做了5代计算芯片,对Arm架构的多核计算芯片了如指掌。

图:陈争胜及其负责的芯片

陈争胜在海思超过10年,曾担任过海思鲲鹏SEGL(首席架构师),也是大家眼中最年富力强的核心架构师;彭亮则是原中兴微电子大芯片的研发总负责人,全盘主持了ARM最新架构两代大CPU的完整研发;我的联合创始人、遇贤COO姬信伟,他是我在英特尔多年的老搭档,他担任过Arm中国服务器市场的负责人,也曾是ARM最重要的生态公司Linaro的副总裁、还担任过华为美研所和处理器研究部的总监。我自己的经历也都是CPU研发管理和技术性工作,上一段经历是担任兆芯的SVP,曾在英特尔美国总部任职十一年,担任过Intel服务器CPU架构师,后来作为事业部总经理带领服务器CPU验证部门完成过多代Intel主流服务器至强芯片。最早博士毕业后的第一份工作就是数据中心CPU研发,在美国最先进的超算数据中心做架构师,我们娴熟于当时三、四种不同架构的服务器CPU,用那些优点改造了x86 处理器,成为2000年服务器的新力量。除了我们4位以外,在软件、硬件、前端、后端、验证、先进封装等全链路各个环节,我们都分别有了20年上下专业经验的资深团队leader。可以说对这颗大芯片的设计理解,在行业内遇贤是最完整和强健的。我们会研发一款非常有特色的CPU,重复我们过去两轮的CPU成功。

图:彭亮及其负责的芯片

市场对高性能和国产化CPU的紧迫需求,我们遇贤微电子团队可以用云原生处理器来替代老架构的CPU,交付这个产品,就是遇贤微电子的核心团队的承诺。

Q

国内现在芯片做得轰轰烈烈,遇贤微电子是否能够推出具备国际水平的产品?

罗勇博士:我们有非常明确的目标,就是不仅实现在国内的研发,产品规格也要达到同期的国际一流水平。

大CPU的研发是重度依赖技术团队的核心经验,并且还要具备顶层视角,在过往经验的基础上具备前瞻的演进能力。我们这些人过去在ARM架构计算CPU、服务器CPU、自研架构等多个领域都曾作为技术负责人,推出过国际一流水平的产品,发货量过千万,完成了通信领域和计算领域CPU的国产替代。坚定的往前走一步,是责无旁贷。

所以,基于历史经验和市场情况,我们很早就能够把产品规格定在了新一代产品中Tier 1竞争力的位置,把以前从32核做到64核再到128核的经验,进一步提高核数,以核心技术创新拉高整芯片性能。对未来三代,我们也制定了极具竞争力的产品技术路标。

Q

作为一家国内的创业公司,遇贤微为何能做这样高难度的产品?

陈争胜:毋庸置疑,高性能CPU是半导体行业的皇冠。为什么我们敢挑战和发起冲锋?

首先当下出现了一个二十年一遇的架构切换机会窗口,这是格局即将变革的节点。Fabless模式有一个高度分工的产业链,我们得以立足在技术核心芯片设计上,跟其他成熟的产业链公司合作,实现CPU最终的商业化闭环。这也是海思、中兴微等一流芯片公司的经验。

虽然创业公司没有像大公司那样的众多“平台”部门支撑研发,但创业公司的项目非常聚焦,协同管理变得极度简化,资源集中,效率很高;同时公司是团队自己的,不会是打工心态,借由我们团队原来在大平台的经验可以很快形成效率组织,反而能用最精干的部队,最高效地做出最有价值的产品。

创业公司也有难点,核心专家的技术经验和高度对每个技术关卡都有决定性因素,资源“对”的整合,战略决策和方向的稳定,骨干团队要对、要齐,整个团队像精密的齿轮一样啮合紧密、高效运转,既要有定海神针,又要有少壮派的冲劲。有干劲和技术基础,我们团队就能解决这些难点。

Q

Chiplet技术最近很多人谈?会是个趋势吗?

彭亮:首先这是一个解决特定问题的技术,这个技术并不是今天才有的,已存在多年,业界已经采用这种技术用于解决例如单芯片规模、算力、良率、异构计算等问题,Chiplet芯片的设计交付和量产本身是个成熟方案,而在这方面我们过去做过多代Chiplet,加上和领先封测厂家的紧密合作,可以进一步加大芯片规模。

陈争胜:对的,Chiplet并不是一个很新的技术,是沿着MCM、SiP技术发展而来。技术上强调的是架构上的拆分、先进的封装技术掌握以及异构生态的构建。广义的Chiplet已经广泛使用,对国产化意义重大。Chiplet真正要带来革命性的变化,还需要类似IP生态一样的Chiplet生态出现,才能真正实现异构、异质系统的构建。我们也会采用这样的技术,来满足不同的市场需要。

Q

你们对大厂纷纷做芯片怎么看?

彭亮:全球化分工是不可逆的。早在intel成名之前,服务器公司也是从芯片、软件、生态、系统一体化垂直做,后来intel改变了这个格局,降低了下游的应用成本,将市场蛋糕也做大了。产业链上一定会有独立第三方芯片公司作为供应商。

对大部分不以芯片作为核心业务的云计算公司,自己做大CPU是不划算的投入,不仅要做当代产品的巨大研发投入,还同时需要构建长期竞争力。遇贤定位是芯片公司,我们团队的经验和投入都会非常聚焦。

陈争胜:是的,我在独立的Fabless公司和大厂的芯片研发部都有过研发经历,有些大厂做芯片,是利用业务Known-how进行垂直整合创新,降低采购成本,以及提高对供应链的话语权。即使如此,像亚马逊这样的大厂,采用自研芯片的同时,也持续的采用商业化方案,构建更稳健的供应链。技术团队很重要,如果自研芯片达不到通用市场水平,或者大厂本身的采购量不足以覆盖一代代产品的研发投入,会形成很大的资源浪费。更广阔的客户还是需要第三方来服务。

未来将何去何从?

Q

Arm服务器芯片未来在于Intel的竞争中,会处于怎样的位置?

罗勇博士:美国著名的ARK基金给出过一个大胆预测,预计到2030年,服务器CPU的市场占有率会有70%从X86转变为ARM架构,这意味着英特尔会从绝对的霸主,交出宝座,而与此同时,可能会产生数家千亿级的新巨头。

从行业分工的角度而言,未来英特尔面临很大的压力。主要是IDM模式难以支持市场需求减弱、工厂开支增加的矛盾。Arm架构能够胜出,也是因为众多的合作公司分担了软件和架构的研发成本,分担了代工厂持续迭代的设备投资。

未来云计算CPU的格局,和现在手机处理器的格局会类似。系统公司自研CPU、和独立CPU公司并存。像三星、华为、苹果是前面的模式,而高通、展讯、联发科是后面的模式。我们看到现在中国市场上,因为产业形态的原因,对独立CPU公司的需求更大。这也是遇贤坚持的一个方向。在这一点上,我们从创业到现在,都是保持一致的。

Q

如你所言,服务器Arm化的趋势,有一天也有可能会被其他架构(如RISC-V架构)突破?

罗勇博士:当然有这个可能性,比如我们也看好RISC-V的发展,但距离RISC-V的生态成熟还有需要许多年的路程要走。从x86到今天的ARM化,是二十年一遇的浪潮,得益于整个大生态环境的支持已经完善。过去十年一直有很多创新型公司都试图用arm替代intel,用新的架构以满足服务器和云计算的需求,但受制于软件应用没有打通,一直没有很大突破。生态公司、ARM、软件公司、芯片公司投钱、投人力,有组织的联合研发,耕耘了十年,直到在2019年前后,才完成软件的适配工作。

生态的建设不是一朝一夕之力,也不是一家公司的成就,必须得新需求的拉动,加上全行业巨头、上下游的参与,才能够完成。

写在最后

自英特尔一统服务器芯片市场以来,他们垄断这个市场的地位是几乎从没有人撼动过的。翻看过往的统计数据,我们发现Intel在服务器芯片市场份额曾一度高达98%,即使在AMD和Arm服务器芯片强势崛起的当下,Intel在这个市场依然遥遥领先。

据分析机构Omdia的统计数据显示,在今年第二季度,全球服务器出货量为 340 万台。Omdia 衡量英特尔在数据中心市场的份额为 69.5%,AMD 为 22.7%,Arm 为创纪录的 7.1%,剩下的0.6% 归于其他架构的芯片。值得注意的是,Arm服务器芯片的的市场份额同比增长了 48%。我们也期盼随着CPU的演进,国产CPU的比例也可以大幅度的增长。

2022 年第二季度 Arm 与 x86 服务器市场份额(source:omdia)

众所周知,过去多年的发展里,即使Arm多次尝试,他们依然仅仅是手机和嵌入式市场的王者,但在服务器芯片市场却动不了英特尔分毫,这除了本身性能的原因外,英特尔在服务器市场上做的巨大贡献更是其中一个关键因素。

但现在,一个全新的机会摆在Arm和遇贤微面前,接下来就让我们看他们如何运筹帷幄。让我静待一个革命性时代的到来。

0 人点赞