今天,继续昨天的内幕揭秘——
昨天我们揭秘了HPE的FlexFabric 5940 48SFP 6QSFP28款型,它是基于Trident 2 (TD2 )实现的,其中6个QSFP28接口是通过Gearbox芯片从72个10GE接口转换而来。
熟悉HPE交换机的同学可能会发现,HPE FlexFabric系列,还有一款FlexFabric 5980,它也有6个QSFP28接口和48个SFP 万兆口。
这两款交换机的区别在哪里呢?
我们看一看二者规格的对比。
原来,FF5980和FF5940的交换芯片不一样。
FF5980是基于Broadcom StrataDNX系列的Qumran-MX(BCM88375)。它的框图如下:
Qumran芯片和前面提到的Jericho都属于Broadcom StrataDNX系列(Dune平台)的第四代产品,它具有48个万兆Serdes接口和24个25G Serdes接口。与Jericho BCM88670系列不同的是,它裁剪掉了去交换网板的36个25G Serdes接口,而用来外挂TCAM芯片和外挂数据包缓存的接口依然保留,可以作为实现盒式大缓存大表项交换机的方案。
在FF5980中,就利用48个万兆Serdes接口实现了48个万兆光口,24个25G接口实现了6个QSFP28接口,外挂TCAM芯片实现了750K MAC/375K ARP/256K FIBv4的大表项,而4G数据包缓存也是通过外挂的DDR3 DRAM实现的。
这么做的价值可想而知,大缓存能吸收突发浪涌流量,大表项可以容纳城域边缘的大量接入终端,可以看出,这款产品非常适用于城域网和视频网络等场景。
但是,由于接收到的数据包需要缓存进入外挂DRAM再发送,StrataDNX平台的交换机,转发时延是显著大于StrataXGS系列的Trident2 等芯片的,在用于大规模RDMA等场景会对性能有一定影响。
让我们回到StrataXGS系列。
我们发现,基于StrataXGS芯片的交换机,有不同的工作模式,如Enhanced-Bridge模式、Balanced模式、Route模式等。在不同的模式下,MAC、FIB、ARP规格也有所不同。
以基于StrataXGS Trident2 的Huawei CE6856为例,
它的不同工作模式下,三种表项的规格如下表:
我们发现,MAC/ARP/FIB(LPM)表项最小值分别为32K/16K/16K。此外还有256K可以灵活分配的资源,可以添加到其他表项上。这种灵活分配的资源叫UFT(Unified Forwarding Table)表项技术。这种技术由Broadcom在2012年引入StrataXGS系列交换芯片。目前,TD2 、Tomahawk、TH2、TD3等交换芯片均支持该技术。
为什么交换芯片需要支持这种为不同表项灵活分配资源的技术呢?
让我们回顾上一个专题——局域网SDN硬核技术内幕。
在第20期《亢龙有悔——规格与限制(上)》中提到,在数据中心网络中,不同的工作方式,对接入交换机(TOR)的MAC/FIB/ARP表项需求是不一样的。
在纯三层数据中心网络中,TOR作为三层网关,需要学习TOR下所有VM的MAC和ARP表项,以及通往其他各网段的FIB。由于FIB数量较少,UFT均衡分配给MAC和ARP表的模式2,较适合这种工作方式。
如果TOR工作在二层,三层网关放在数据中心核心,则TOR无需学习FIB表项,只需要学习到自身所属的各VLAN下,所有虚拟机MAC即可,TOR可以工作在模式0,所有UFT表项分配给MAC。VXLAN集中式网关也适用于这种模式。
在VXLAN分布式网关的情况下呢?
让我们再再再次回顾SDN专题中这张经典的图:
可见,所有TOR需要维护各自所属子网中VM的MAC,通往其他子网中VM的FIB,以及TOR下所有服务器内VM的ARP。显然,这种模式下FIB表项需求最大,我们应该将UFT主要分配给FIB表,也就是交换机的工作模式4。
这样,交换机就不仅是倚天剑与屠龙刀了,更像现代轻武器中的高射机枪,可对空,可平射,威力无穷。
今天留给大家的思考题是,这种将TCAM资源灵活分配给不同的表项的技术,在Broadcom引入交换机芯片以前,在什么地方应用了?
昨天的问题答案:TD2 虽然有128组10G Serdes,但由于内部只有104个MAC核,所以只能作为96个10G 8个40G以太网接口使用。