8月28日消息,由传奇芯片架构师Jim Keller领导的AI芯片新创公司Tenstorrent在近日的Hot Chips 2024活动上详细介绍了其新一代基于RISC-V架构的BlackHole系列AI处理器,性能高达745 TOPS,尽管芯片集成的内存容量和带宽低于英伟达A100,但是整体的AI性能和可扩展性更优。
据介绍,这款Blackhole AI芯片共拥有768个RISC-V内核,包括16个Big RISC-V内核、752个Baby RISC-V内核,其中大量的Baby RISC-V内核被分别集成在140 个 Tensix 人工智能计算核心当中,241MB的片上SRAM内存和一系列高速连接,可以提供745TFLOPS 的 FP8 性能(FP16 时为 372 TFLOPS)。Blackhole还支持32GB 的 GDDR6 内存和基于以太网的互连,能够在其 10 个 400Gbps 链路上实现 1TBps 的总带宽。
Big RISC-V和Baby RISC-V
具体来说,与之前推出的基于PCIe的Greyskull 和 Wormhole加速芯片不同,Blackhole是一款独立的AI计算机系统。
根据Tenstorrent ML 框架和编程模型高级研究员 Jasmina Vasiljevic 的说法,这主要归功于其内部集成的16 个具有64 位、双发射、顺序执行的Big RISC-V CPU内核,这些内核排列在四个集群中。至关重要的是,这些Big RISC-V CPU内核足够强大,可以用作运行 Linux 的设备端主机。并且,还有与之配对的752 个“Baby RISC-V”内核,这些内核负责内存管理、片外通信和数据处理。
△Blackhole 加速器包含 16 个 Big RISC-V 和 752 个 Baby RISC-V 内核。
然而,Blackhole实际的AI计算则主要由 Tenstorrent自研的140 个 Tensix AI内核处理,每个内核由五个“Baby RISC-V”内核、一对路由器、一个计算综合体和一些 L1 缓存组成。
这个计算综合体则是由一个旨在加速矩阵工作负载的平铺数学引擎和一个矢量数学引擎组成。前者将支持 Int8、TF32、BF/FP16、FP8 以及 2bit 到 8bit 的浮点数据类型,而矢量引擎则主要面向 FP32、INT16 和 INT32数据类型。
根据Tenstorrent 的 AI 软件和架构高级研究员 Davor Capalija 的说法,这种配置意味着该芯片可以支持 AI 和 HPC 应用中的各种常见数据模式,包括矩阵乘法、卷积和分片数据布局。
△Blackhole 的 Baby RISC-V核心可以进行编程以支持各种数据移动模式
总的来说,Blackhole 的 Tensix 内核占了总共752 个Baby RISC-V 内核中的 700 个。如上图,其余的Baby RISC-V 内核则负责内存管理(“D”代表 DRAM)、片外通信(“E”代表以太网)、系统管理(“A”)和 PCIe(“P”)。
Blackhole Galaxy系统
然而,就像英伟达的AI加速芯片通常被组成集群来使用一样,Tenstorrent 的 Blackhole 也被设计为作为支持横向扩展系统的一部分进行部署。Tenstorrent计划将 32 个 Blackhole 加速器塞进一个 4x8 网格网络中,并将其称为 Blackhole Galaxy系统。
△Tenstorrent 的 Blackhole Galaxy 系统将 32 个 Blackhole 加速器组成了一个集群,可以实现近 24 petaFLOPS 的 FP8 性能。
总的来说,单个 Blackhole Galaxy 承诺可以带来FP8 的 23.8 petaFLOPS 或 FP16 的 11.9 petaFLOPS算力,以及 1TB 的内存,能够实现 16 TBps 的原始带宽。
更重要的是,Tenstorrent 表示,该芯片的内核密集架构意味着这些系统中的每一个都可以用作计算或内存节点或11.2TBps 高带宽的AI 交换机。
“你可以把它当作乐高积木来制作一个完整的训练集群,”Davor Capalija 说。
Tenstorrent 认为,整个训练集群可以只使用 Blackhole Galaxy 系统作为“乐高积木”来构建。
相比之下,英伟达最密集的 HGX/DGX A100 服务器系统基本都是8个GPU组成一个系统,其FP16性能不到 2.5 petaFLOPS,相比之下Blackhole Galaxy 的速度提高了近 4.8 倍。事实上,在系统级别,Blackhole Galaxy 应该可以与英伟达的HGX/DGX H100 和 H200系统竞争,后者在FP8数据类型下,可以提供大约 15.8 petaFLOPS的算力。
Tenstorrent 使用板载以太网来进行连接,意味着它避免了与处理芯片到芯片和节点到节点网络的多种互连技术相关的挑战,就像英伟达使用 NVLink 和 InfiniBand/以太网一样。在这方面,Tenstorrent 的横向扩展策略与 英特尔的Gaudi系列AI加速器平台非常相似,后者也使用以太网作为其主要互连。
构建软件生态系统
除了芯片之外,Tenstorrent 还披露了其加速器的 TT-Metalium 低级编程模型。
熟悉英伟达CUDA 平台的人都知道,即使竞品的硬件性能表现比英伟达更高,配套的软件也仍可以决定其成败。Capalija 解释说,事实上,TT-Metalium 有点让人想起 CUDA 或 OpenCL 等 GPU 编程模型,因为它是异构的,但不同之处在于它是从“为 AI 和横向扩展”计算而构建的。
这些差异之一是内核本身是带有 API 的普通 C 。“我们认为不需要特殊的内核语言,”他解释说。
Tenstorrent 旨在支持许多标准模型运行时,如 TensorFlow、PyTorch、ONNX、Jax 和 vLLM 。结合包括 TT-NN、TT-MLIR 和 TT-Forge 在内的其他软件库,Tenstorrent 旨在支持使用 PyTorch、ONNX、JAX、TensorFlow 和 vLLM 等常用运行时在其加速器上运行任何 AI 模型。
对这些高级编程模型的支持应该有助于抽象出跨这些加速器部署工作负载的复杂性,类似于我们在 AMD 和 Intel 加速器中看到的情况。