AI存储网络接口的速度之争
AI存储网络接口分为外部接口和内部接口。内部接口包括常见的PCIe,英伟达的NVLink,AMD 的Infinity Fabric和Intel的Xe Link等,目前内部接口还在铜缆互联的阶段,以后我们可以专门用文章讲一讲内部接口的光互联发展趋势。外部接口包括以太网、Infiniband、Fiber Channel、SAS,这些网络早已使用光模块进行互联,下面我们一起来以光模块的视角来探讨一下不同网络的应用。这里需要说明的是,由于光模块是透传数据,不在意网络类型。网络技术的最小单位帧则是以0和1的排列组合构成,光模块只根据主机的信号传输0和1。所以客户在购买光模块时,只需关注的是:工作速率,封装形式和传输距离。本文也是从这三个方面来讨论。为了便于记忆,本文提及的速率均取整数。
1.以太网
以太网的协议我们之前整理过,这里不在赘述。目前以太网最高速率800G和1.6T的协议还在制定中。根据大成鹏的客户的实际使用情况,目前AI算力使用是400G和200G为主,AI存储则以200G为主。400G封装形式为OSFP、QSFP-DD和QSFP112,200G封装形式为QSFP-DD和QSFP56,根据主机接口封装类型决定。传输距离:多模光纤100米使用多模光模块,单模光纤500m和2km使用单模光模块,机柜内部3米使用无源铜缆DAC,服务器/存储主机和TOR交换机互联使用有源光缆AOC在30米内。表1为以太网网络的速率类型发展。
序号 | 标识 | 速率 | 封装 | 速率*电信道数组合 |
---|---|---|---|---|
1 | FE | 100Mbps | SFP | 100M*1 |
2 | GE | 1Gbps | SFP | 1G *1 |
3 | 10GE | 10Gbps | SFP | 10G *1 |
4 | 25GE | 25Gbps | SFP28 | 25G *1 |
5 | 40GE | 40Gbps | QSFP | 10G *4 |
6 | 50GE | 50Gpbs | SFP56 | 50G *1 |
7 | 100GE | 100Gpbs | QSFP28 | 25G *4 |
8 | 200GE | 200Gpbs | QSFP56 | 25G *8 |
QSFP-DD | 50G*4 | |||
9 | 400GE | 400Gpbs | QSFP-DD | 50G *8 |
OSFP | 100G *4 | |||
QSFP112 | 100G*4 |
表 1
2.infiniband
目前IB网络最高速率800G。根据大成鹏的客户的实际使用情况,目前AI算力使用是800G和400G为主,AI存储则以400G和200G为主。800G和400G的封装形式IB均指定为OSFP,200G的封装形式IB指定为QSFP56。传输距离:多模光纤100米使用多模光模块,单模光纤500m和2km使用单模光模块,机柜内部3米使用无源铜缆DAC,服务器/存储主机和TOR交换机使用有源光缆AOC在30米内。表2为IB网络的速率类型发展。
序号 | 速率标识 | 速率 | 封装 | 速率*电信道数组合 |
---|---|---|---|---|
1 | SDR | 每通道2.5Gbps | CX4 | 2.5G *4 |
2 | DDR | 每通道5Gbps | CX4 | 5G *4 |
QSFP | 5G *4 | |||
3 | QDR | 每通道10Gbps | QSFP | 10G*4 |
CXP | 10G*12 | |||
4 | FDR | 每通道14Gbps | QSFP | 14G*4 |
CXP | 14G*12 | |||
5 | EDR | 每通道25Gbps | QSFP28 | 25G*4 |
CXP2 | 25G*12 | |||
6 | HDR | 每通道50Gbps | QSFP56 | 50G*4 |
7 | NDR | 每通道100Gbps | OSFP | 100G*4 |
8 | XDR | 每通道200Gbps | OSFP | 200G*4 |
表 2
3.Fiber Channel
按照之前的规划,第8代128GFC应该会在2021年间完成标准制定,但实际上推出时间一延再延,直到2024年的今天,仍未实际问世。目前最高速率为2018年制定完成的第7代64GFC,但是应用进展依旧十分缓慢。根据大成鹏的客户反馈情况,目前AI存储不会使用FC网络,国内设备主流还停留在16GFC和32GFC,速率跟不上算力需求。16GFC和32GFC使用的封装为SFP28。传输距离:主要为多模光纤100米使用多模光模块。表3为FC网络的速率类型发展。
序号 | 标识 | 速率 | 封装 | 速率*电信道数组合 |
---|---|---|---|---|
1 | 1GFC | 1Gbps | SFP | 1G*1 |
2 | 2GFC | 2Gbps | SFP | 2G*1 |
3 | 4GFC | 4Gbps | SFP | 4G*1 |
4 | 8GFC | 8Gbps | SFP | 8G*1 |
5 | 16GFC | 14Gbps | SFP | 14G*1 |
6 | 32GFC | 28Gbps | SFP28 | 28G*1 |
7 | 64GFC | 56Gbps | QSFP | 14G*4 |
表 3
4.SAS
SAS可以作为存储设备内部接口,也可以作为外部接口。目前SAS接口最新规格是2017年制订的SAS-4,也就是24G SAS。依照原本的路线图,下一步的发展应该是带宽加倍的SAS-5,即48G SAS。但负责制定规格的SCSI贸易协会(SCSI Trade Association,STA),在2023年底,提出异于原本路线图的规画,放弃48G SAS这条提高带宽的路线,改为沿用既有的24G SAS物理层,搭配强化上层协议可靠性、安全性与效率的24G SAS,但是按照光模块的传输原理,SAS-4和SAS-3的数据传输并无差异。SAS作为外部接口互联的封装为Mini SAS,并且主要采用的是有源光缆AOC和无源铜缆DAC的产品形态。表4为SAS网络的速率类型发展。
序号 | 标识 | 速率 | 封装 | 速率*电信道数组合 |
---|---|---|---|---|
1 | SAS-1 | 每通道 6Gbps | Mini SAS | 6G*4 |
2 | SAS-2 | 每通道 12Gbps | Mini SAS | 12G*4 |
3 | SAS-3 | 每通道 24Gbps | Mini SAS | 24G*4 |
4 | SAS-4 | 每通道 24Gbps | Mini SAS | 24G*4 |
表 4
综合以上可以直观的看到,在AI存储领域,FC和SAS网络接口已经远远的赶不上以太网和IB。目前仍旧是以太网和IB的直接竞争,现阶段在IB优秀的RDMA能力下,已经取得技术的领先优势。针对IB的崛起,以太网制定了RoCE协议,把InfiniBand的RDMA传输架构移植到以太网络中,使得RoCE兼具RDMA的低延迟与以太网的低成本特色。但是其RDMA在拥堵控制、负载平衡等方面,仍有一系列不足。所以去年成立的超以太网联盟需要制定新的协议取代现有RoCE协议,透过新的传输层来改善雍塞管理,并减少延迟等,超以太网联盟计划于今年三季度推出新的标准。