FuriosaAI推出高能效AI芯片：性能与英伟达L40S接近，功耗低40%！

8月27日消息，在近日召开的Hot Chips 2024大会上，韩国AI芯片初创公司FuriosaAI 推出了一款面向高性能大型语言模型和多模态模型推理的高能效数据中心AI加速器 RNGD。

需要指出的是，这款芯片并不追求最高的AI性能，对标的也不是英伟达的H100之类的高性能AI芯片，而是一款追求高能效、低功耗AI数据中心解决方案，性能与英伟达L40S接近，功耗还降低了40%。

具体来说，FuriosaAI RNGD基于台积电5nm工艺制造，其核心的面积为653mm²，晶体管数量为400亿颗，AI计算核心的频率为1.0GHz，拥有256MB的片上SRAM，外围还通过CoWoS-S封装集成了48GB HBM3（2颗12层堆栈的24GB HBM），内存带宽为1.5TB/s。

在性能方面，基于 RNGD芯片的单张卡算力为64TFLOPS（FP8），可以运行Llama 3.1 8B等大语言模型，TDP功耗仅150W，相比之下英伟达H100 TDP则高达400W。而基于8张RNGD加速卡的系统，则可提供最高512TFLOPS（FP8）和1024TOPS（INT4）的计算能力。

根据FuriosaAI介绍，RNGD在运行拥有约100亿个参数的模型时，能够达到每秒处理多达3000个Token的吞吐量。在复杂的AI算法处理场景中，其能够有效降低电费和冷却成本，为数据中心提供了一种可持续的发展解决方案。与当前市场上的主流GPU相比，RNGD芯片能耗大幅降低的同时，计算性能却未受影响，提升了整体的经济效益。

正如前面所提及的，FuriosaAI并没有将RNGD的目标对准高性能的英伟达H100之类的产品，而是瞄准了英伟达L40S，目标不仅是提供相似的性能，而且是以更低的功耗提供该性能。根据FuriosaAI提供的数据显示，RNGD在拥有与英伟达L40S相近的AI性能的情况下，其能耗大约只有L40S的60%（即相当于功耗降低了40%），这也反应了其出色的能效表现。