以下文章来源于芯潮IC ,作者芯小潮
芯潮IC.
一同见证“芯”潮澎湃
“芯事重重”是腾讯科技半导体产业研究策划,本期聚焦科技公司下场自研AI芯片的逻辑与挑战。
作者 | 芯潮IC 阿牛
编辑 | 苏扬
“我们的英伟达芯片储备,已经跟不上了。”一位AI大模型企业CEO坦言。
受出口管制进一步收紧的影响,A800、H800等中国特供版芯片已经很难正常采购,取而代之的是合规版H20,后者性能大幅缩水,外界也将其称之为阉割版。即便如此,H20仍然有可能在今年10月份美国商务部出口管制条款更新当中,同样面临出口管制。
《金融时报》援引两位与英伟达关系密切的匿名人士消息称,多家中国公司向英伟达下单订购了共50亿美元的芯片。与此同时,一些国产芯片进入科技大厂的视野,但由于工艺、互联等原因,性能仍有差距,供给也存在挑战。
在这种背景下,多家大公司下场自研,先后在台积电流片,覆盖5nm、7nm等多个工艺节点,以保证自身AI芯片的供应安全。
出口管制像一把双刃剑,卡住了算力的脖子,也限制了英伟达的增长,尤其是在客户自研的背景下,英伟达在大陆的营收开始出现变数。2022财年,中国客户为英伟达贡献了25%的市场营收,而到2024财年,这个比例已下降至个位数。
对英伟达来说,中国大陆的蛋糕缩水,硅谷也在变天。谷歌、苹果、Meta、亚马逊、特斯拉等大客户都在尝试两条腿并行,一边用着英伟达的芯片,一边下场自研。
中、美大厂自研芯片的逻辑是什么,涌进红海的科技公司,靠自研芯片能顺利上岸吗?
硬通货,握在手里才有安全感
大模型和生成式AI热潮狂卷的当下,算力芯片是科技公司手里的硬通货,芯潮IC曾在《天价H100流向黑市》一文中跟踪过这种“抢算力”的疯狂与紧张。
把牌握在自己手里,是大厂自研芯片的根本原因。
在千芯科技董事长陈巍看来,大厂的底牌有三张:保供、降本和竞价,笼统来说是一种芯片自主权。
对很多中国大厂,特别是互联网和人工智能大厂来说,在先进芯片出口管制的背景下,随时面临算力断供风险,下场自研是算力安全的保障。不过,各家开发的芯片主要是内部自用,规格也是针对自家产品定制设计,并非通用型产品。
对“烧钱”堆算力的巨头们来说,自研是降本的一条路径。“体量足够大、需求足够大,再考虑自研,否则不一定能真的降本。”前台积电建厂专家吴梓豪说。
2021年,马斯克推出了由自研AI芯片D1打造的Dojo超级计算机,用以训练特斯拉的自动驾驶系统。据摩根士丹利最新研报,这套系统比用英伟达的A100,足足省下了65亿美元。
随着AI需求兴起,云厂对GPU的依赖性远远超过了CPU,对英伟达芯片的需求堪称疯狂,自研也是云厂抢英伟达订单的竞价筹码。
一位接近亚马逊的人士告诉芯潮IC,英伟达的卡并不便宜,DSA大厂如果手握自研的专用芯片,不但可以充分降低在芯片和专利上的平均成本,面对英伟达也能有更好的议价权。
公开资料显示,亚马逊不仅设计自己的计算服务器、存储服务器、路由器,还研发了自己的服务器芯片Graviton。
AWS推出通用Graviton4处理器
据The Information报道,亚马逊通过Graviton替换英伟达来持续降低价格,客户租用Graviton服务器,直接节省了10%~40%的计算成本。站在英伟达的角度,要留住亚马逊这种全球最大的云厂客户,就得坐在牌桌上,协商出一个更好的价格。
“这种让利,有时候不一定完全反映到折扣上,有可能反映在配置上。”
上述知情人士透露,作为全球顶级的现货厂商,英伟达如果直接在单价上给予非常直观的折扣,对产品定价体系的负面影响会很大,不利于产品价格保护,但它们可以通过升级互连设备、升级SSD存储、增加更多Rack配置等方式,变相给大客户提供优惠。
还有一种更为常见的优惠手段——产能倾斜,提供首发权益。
拿到先发优势,亚马逊在短期内可以把整机价格定得更高,从整机溢价和配套软件工具链的流通当中,把(折扣)钱“省”出来。
保供、降本和竞价之外,有些大厂自研芯片更多是想要保证自身独特的竞争力。
风云学会副会长陈经提到,英伟达卖的芯片适用于通用计算,功能很全但也比较贵,但有些客户只需要特定的功能来强化自身的某些优势,这种情况下就会考虑自研。
“我只需要做大模型推理,不需要训练功能,这种情况就可以设计一个功能简单,但是速度更快,价格便宜的专用芯片,”陈经说。“像谷歌、微软这些大公司,都有自己的软硬件系统规范,如何去控制噪音,能耗要到什么级别,英伟达不一定能满足标准,自己设计会更方便。”
硅谷巨头当中,谷歌非常在意自身架构、成本和芯片技术的差异化,从2016年起就自研AI张量处理单元(TPU),以便于在大中型训练与推理中,获得更好的成本效益和性能,以保证自己的云计算产品有更好的独特性和识别度。
谷歌推出第六代TPU“Trillium”
根据谷歌披露的第4代TPU相关数据,与同等规模的系统相比,TPU v4的效率比英伟达A100强1.7倍,节能效率强1.9倍。
除以上几点外,从生态角度来看,还有一个更深层的原因——打破CUDA垄断。作为英伟达研发的编程语言,CUDA是把GPU价格“炒上天”,而客户又不得不接受的主要原因。
如果云厂不做自研,即便可以拿到很好的订单价格,但数据中心超95%的处理器依然要用英伟达GPU,整个云上AI需求仍要依赖CUDA生态。说到底,命门还是捏在英伟达手上。
随着云厂在数据中心配备自研芯片,同时开发很多底层中间件和二进制翻译功能,帮助客户迁移至自家生态,对CUDA程序的等价兼容程度会更高,独家的依赖程度会逐渐减轻。
“这是所有的云厂都在做的事,即便处理器在整个数据中心所占比可能不到4%,但依然要坚持做这个事情。”该知情人士说。
有人、有钱,那就下场吧
“有人、有钱、有事,同时它还有未来的量,那就可以下场了。”
联想控股副总裁于浩认为,大厂做芯片自研的逻辑是比较顺,它的客户就在那儿,这是个明确的优势。
“‘人’得是有芯片全生命周期实战经验的‘牛人’,‘钱’得是依托算力业务持续贡献收入的‘活钱’,这样一来,大厂依托AI业务闭环,盘点未来可预期的市场涨幅,量化算力需求,完成人和钱的战略统筹,自研芯片水到渠成。”于浩告诉芯潮IC。
不过,坐上自研这个牌桌,入场费至少20亿美元起。今年初,OpenAI CEO山姆·奥特曼甚至传出了筹资7万亿美元造芯片的疯狂计划,尽管后来当事人对这一传闻给予了否认。
据知情人士透露,“每家迭代第一代产品,如果按7纳米中间节点去算,加量产至少小20亿美金。”
此外,自研芯片更多是自用,可以不考虑建设生态的难度。燃次元援引天鹰资本合伙人的观点表示:“专用芯片在架构设计上一般不用特别复杂,应用特性也很明确,开发相对快速,因而对于很多互联网公司来说,他们开发专用芯片就在于有明确场景,不需要花太多财力和时间去搞定软件生态,工艺IP也成熟。”
理论行得通,具体自研这件事如何才能玩儿得转?
按照业内认知,芯片自研这件事可以拆分成前、后端两部分。前端即逻辑设计,是芯片最基本的一些功能,后端是物理设计,是把所有的功能落实到电路并且流片出来的实体。
自研芯片流程示意图
小团队一般来讲能够独立完成的设计只有逻辑芯片的前后端和软件工具链本身,但即便如此,很多设计也仅有5%的自研专用电路。
前述知情人士表示,“市场上大家都是自己做1/5,其余的4/5找别人做,这是相当成熟的生态。至于如何获得这些电路IP,有一些是不良渠道,有一些则是合规的渠道,比如ARM这样的IP设计厂商授权。”
对于很多团队来说,其实具备部分电路的自主设计能力,但因为需要逾越有非常严密的知识产权保护的IP,就算做出来也很可能违反了计算机体系结构没有办法使用,甚至侵犯了别人的IP,这也是国内厂商自研芯片时碰的第一道坎儿。
还有一部分东西的确是自研团队设计不了的,比如NOC(Network on Chip,片上网络)一些非常艰深的结构。
设计只是自研芯片的一个环节,它还包括流片、量产等等,中间可能还会遇到各种各样的问题,包括流片失败,量产产能等,但这些都不是自研的终点,它还需要解决一系列的配套问题,包括如何将产业链整合落到实处。
在外界看来,一颗专用的逻辑芯片大概500多mm²,通用的GPU可以做到800mm²,包含数百亿甚至上千亿晶体管,其中一部分功能用于向量计算,可以认为是一个向量处理器的全部,但要落地到应用场景当中,它还需要存储、能耗控制、供电、整机工况方面的设计与实现,也需要互联组网变成更大的集群。
此外,产品的最终目的都是打出差异化,这需要在外设接口和整机上做,也就会出现不同的SKU,而行业通常也是从整机的角度去对比存储、能耗、坪效。
也就是说,自研芯片除了产业链整合、IP的问题,也得考虑做产品SKU,不是设计出一颗逻辑芯片就可以了。
一位不愿透露姓名的资深人士告诉芯潮IC,“很多国内公司不具备产品设计能力,做出芯片之后,要到各地去测试,它的工程师、商务BD每一天都驻扎在浪潮、曙光等大厂的数据中心,期待对方新的服务器主板上能够去留一个插口给自己,测试成功就批量买一批,不过目前成功的确实非常少。”
量产,是设计、流片以及产品化之外的另一个挑战。小团队必须考虑,究竟能不能够预定到产能?
“产量永远对Fab厂是一个非常关键的数字。”前台积电建厂专家吴梓豪表示,厂商要把握自己在哪个环节进入,承诺多大的产量,这是打动Fab最关键的点。
一线厂商基本都是在DTCO(设计技术协同优化)阶段,就已经预定到了Fab厂的最新产能,目前全球最顶尖的设计团队,比如ARM每年有大批的人驻扎在台积电,包括许多EDA厂商也是。
DTC决定了下一代处理器在具体节点上的性能指标,比如通过在3nm节点,通过合理的布局设计,能节省多少钱、可以提升多少性能。
“英伟达、苹果永远愿意试水最先进的制程,只要台积电出一个最先进的制程,哪怕良率未知,性能的增益未知,即经济模型还算不出来的时候,他们就已经在预定产能了,与Fab厂进行DTCO协同设计,这是一线厂商拿到产能的根本原因。”吴梓豪说。
如果没有从一开始做协同设计,Fab厂与Fabless团队,甲乙双方就得转换角色,因为大家都不太敢用,Fab厂只能一点一点去推销自己的新制程,先从风险最低的芯片开始。
比如矿机芯片,结构非常简单,尺寸又特别小,就很适合最初的试水,当年三星3nm芯片的首个客户就是一家来自中国的矿机设备厂。
吴梓豪说,“Fab厂在这种小客户订单上试水成功后,才能再试着量产PC的CPU,手机芯片,最后是AI芯片,一步一步来。”
目前,国内大厂自研芯片至少已投入了数十亿美金。如果初创公司想入局,要么本身有足够的多的早期客户,或有应用平台去支撑芯片的适配与试错,要么有足够的资本或融资能力很强,这两个条件必须满足其一。
陈巍告诉芯潮IC,如果是一家没有低成本人力储备的商业化公司,不依靠学校或研究所,那在量产之前需要不低于5~10亿人民币的融资;但如果有研究所或其他支持的话,人力成本能减少很多,金额门槛可稍微低一些。
“如果没有那么多钱,但这家创企的成本控制能力非常强,能充分利用好上下游协作来降低成本也可以,一切都是为了保证产品研发的持续进行。”
Fab选择优先级上,据知情人士透露,最初创企们会选择去订购台积电的产能,其次是格芯,但格芯没有先进工艺,也没有封装,再转而找中芯国际,但中芯国际能预订的产能都排到后年了。
对于这一情况,投资机构持更长线的视角。
于浩表示,单就国内自研高端芯片来说,短期内面临流片瓶颈是必然的,长期就看以中芯国际为代表的先进工艺线打磨和产能扩充的进化速度,主要靠内循环。不过,有高端芯片设计能力的厂商,不妨考虑出海,用外循环带动内循环,走出去反而海阔天空。
做英伟达的“掘墓人”不容易
老客户自立门户,受伤的总是英伟达。
这一场全球范围的自研大潮,一个比一个“炸”。除了谷歌TPU、亚马逊Graviton这些已臻成熟的自研成果。近日,整个科技圈都被“全球首款Transformer专用AI芯片Sohu”刷屏。
美国芯片创业公司 Etched 推出Transformer专用AI芯片Sohu
这款芯片直接将Transformer架构嵌入芯片内部,在推理性能上远超GPU和其他通用人工智能芯片,号称比今年3月才面世的顶尖芯片B200性能高出10倍。据传,一台配备8块Sohu芯片的服务器,性能足以媲美160块H100 GPU的集群,每秒能处理高达50万的Llama 7B tokens。
“当红炸子鸡”横空出世,Fab厂及合作商笑开了花。
据悉,该公司已就Sohu芯片的生产与台积电4nm工艺展开直接合作,并且已从顶级供应商处获得足够的 HBM 和服务器供应,一些早期客户已经向该公司预订了数千万美元的硬件。网友给Etched起了个诨名——“英伟达的掘墓人”。
但英伟达真会因狼烟四起而“自研”神话破灭吗?其实不然。
在半导体行业,有一个著名的“牧本周期”——芯片类型有规律地在通用化和定制化之间不断交替演化——在某一个特定时期内,通用结构卖得最好,为广大用户所欢迎,但到达一定阶段后,通用结构在应对特定需求时落后,专用结构会大行其道。
而英伟达正当仁不让地代表着通用结构时代,这个时代刚好还处在顶峰。
根据富国银行的统计,英伟达目前在全球数据中心AI加速市场拥有98%的份额,处于绝对的统治地位。这也就是说,全球98%的人群正在使用英伟达的CUDA C去“榨干”所有GPU的性能,只有剩下那2%-3%的人还在特别坚持用一个不怎么样的“锤子”,去锤同一个“钉子”。
“现在亚马逊也好,英特尔也好,自己做的处理器首先经济上不能满足一个云厂商利益的最大化,所以他们一定还会大量使用英伟达芯片,直到有一天英伟达彻底失去优势,才会走到牧本周期专用化那条路上。”前述知情人士表示。
不过,躺平不符合英伟达的人设,黄仁勋是一个深知“生于忧患死于安乐”的人,一年前在台大的演讲,他就谈到:“不论是为了食物而奔跑,或不被他人当作食物而奔跑,你往往无法知道自己正处在哪一种情况,但无论如何,都要保持奔跑。”
这次,面对整个硅谷自研的挑战,英伟达也在出牌。
前述资深人士告诉芯潮IC,“英伟达做的早就不是一个通用GPU了,在它的GPU单元中可以看到大量的Tensor Core来解决矩阵计算,除此之外还能看到Transformer引擎、稀疏化引擎等,无论在硬件结构,还是在硬件算子的更新上,英伟达每年都在把自己推向DSA化的设计趋势。”
DSA(Domain Specific Architecture)即特定领域架构,是一种针对特定领域定制的可编程处理器架构,能够优化特定应用程序的性能和性价比。目前,谷歌、特斯拉、OpenAI和Cerebras等都针对特定应用推出了自己的DSA芯片。
据知情人士透露,所有做DSA的厂商都会发现,英伟达即使不修改硬件,通用GPU只更新一个算子,DSA厂商的优势就完全没有了。似乎与英伟达一比,自己不但逻辑芯片面积做得不够大,器件容量和速度做得也不够大,算力也比不上英伟达,软件适配性做得也不够好,这也是所有DSA厂商都面临的问题——牧本周期原本要走向DSA特定领域架构,走向定制化的,现在又回到了通用处理器的时代。
除了和DSA厂商“照镜子”,英伟达也向自研伸出了橄榄枝——2024年年初,专门建立了一个新的业务部门,由半导体资深人士Dina McKinney领导,专为云计算、5G 电信、游戏、汽车等领域客户构建定制芯片。
路透社援引知情人士说法称,英伟达高管已与亚马逊、Meta、微软、谷歌和 OpenAI的代表们会晤,讨论为它们定制芯片的事宜,除了数据中心芯片外,该公司还在争取电信、汽车和视频游戏客户。
此前,有消息称任天堂在今年推出的新版任天堂Switch游戏机,很可能就会搭载英伟达的定制芯片,而英伟达在掌机市场也有很深的沉淀,并且推出过Tegra系列移动芯片,尽管这个芯片系列最后并没有在移动设备市场占据一席之地。
在性价比主导的市场里,要做英伟达的掘墓人还真没那么容易。之前的掘墓人大多走向了失败——最终可能会被收购,像英特尔、Google收购了很多创企,但此外的大多数企业甚至等不到收购,直接夭折了。
也许对于初创企业来说,换一个角度更容易成功。
“比如不要执迷于AI处理器本身,与其花很多的时间去兑现一个DSA的理想,不如考虑一下系统级方案,比如可以做周边外设来为 AI的处理器提供服务,做专业存储、专业传感器也可以达到同样的目的。”前述知情人士说。
2019年,英伟达宣布以69亿美金的价格收购Mellanox,这个估值非常之高,英伟达几乎透支掉自己的整个现金流。
这家公司既不研发端口,也不研发光伏模块,更不研发交换机本身,它只做了一款产品——交换机底层和通讯底层的那一部分高速互联的PHY“InfiniBand”。对于当时亟需突破服务器互连限制的英伟达而言,这是一个非常核心的外设的需求。当时无论NVLink做得多好,始终被锁死在单机附近。但InfiniBand可以让交换机突破服务器间的互联瓶颈,把所有的GPU互联成一个大集群。
放眼当下,国内正火热攒局,芯片自研的子弹还得再飞一会儿。陈巍认为,攒局不是一件坏事,但要攒一个高端局,以免错失产业发展的关键窗口期。
未尽研究创始人周健工进一步展开这一观点,他认为,今后的应用对于AI芯片的专业、定制、小型化需求,会超出对于前沿基础大模型的需求。以更低的成本训练出开源的、较小型的模型,或者对大模型进行微调和蒸馏等,以及推理,都为自研芯片带来了广阔的空间。而且在新技术的快速变动和未成熟期,围绕上述应用会带来大量的自研机会。
“不要去做终结英伟达的事,而是去做英伟达之外更多的事。”