峰会回顾 | 腾讯自研交换机——从100G到未来

2021-12-21 12:40:06 浏览数 (2)

前言

11月19日第十一届网络平台部技术峰会在深圳圆满落幕。本次峰会围绕硬件研发、硬件加速、网络产品、网络运营四大领域,深度全面地展示了网络平台部不断精进的研发能力及探索成果。下面让我们共同回顾本次峰会中由硬件研发专家——崔鹏呈现的《腾讯自研交换机——从100G到未来》的精彩内容。

腾讯100G交换机硬件架构及亮点

大家可能比较熟悉的是我们自研交换机的型号TCS8400和TCS9400,其实我们对应的还有产品代号:

○ 给ToR交换机TCS8400 – Aries,对应首字母为A,所以也代表了我们第一款全自研设备,此外白羊座的守护神为战神,也是期望我们这款设备可以勇往向前。

○ Spine交换机TCS9400 – Taurus金牛座,象征了我们这款大家伙的强健性能以及稳定可靠。

在设计之初我们的一个理念就是模块化,我们的交换机都是由不同的功能模块组成的,最重要的就是例如 TCS8400前端口的交换板,TCS9400由于端口比较多所以交换板被分成了3张,上、中、下通过连接器扣合到一起。模块设计的一个好处就在于如CPU板、BMC板、PSU等模块组件可以共用,此外可以方便以后模块升级。同时,我们两款设备的共用物料多达70%以上,在这个物料短缺的时期,可以易于供应链集中采购,避免供应短缺。

需要提出的是TCS9400设备在最开始设计时,是计划做成和上一代一样的可插拔形态,这样做系统设计难度特别是SI风险不大,但是引入了PHY芯片,也就意味着增加了系统成本、功耗及开发时间。经过认真的研究与全面的评估,我们后来决定还是挑战一下自己,采用PHY-less无PHY设计,这样就避免了刚刚提到的那些问题。但是没有了PHY芯片对高速信号的重整与重传,SI链路整体性能预算紧张,充满挑战。

为了在无PHY的情况下提供同样的性能,我们采取了最优化架构设计,充分减少走线距离;同时对128个端口的512个差分对都进行了 从芯片到端口的端到端走线优化,在backdrill、anti-pad等局部细节上也做了微调整。经过SI的全面优化,最终的结果是我们的性能不仅可以符合行业规范,并且可以超出标准50%以上。

自研设计中的难点和亮点还有很多,这里就不一一展开了,总结来说在采用了敏捷开发、模块架构、PHY-less方案、端到端的优化之后,我们的自研设备不仅迭代速度更快,同时在性能、质量、成本上相较于商业机都有较大优势。

下一代交换机相关技术难点与挑战

在讨论下一代交换机挑战之前我们先回顾一下我们的网络设备路标。

之前一代是用于25G/50G网卡的定制交换机,现在一代是基于50G PAM4并用于100G网卡的自研交换机。虽然下下一代设备我们不知道长什么样子,但是下一代其实也不难预测,就是基于112G PAM4,用于200G网卡的交换设备,会有什么大的变化么?

以最复杂的Spine交换机设备来讲,下一代设备不外乎以下几种形态:基于一张PCB板卡搞定的64口800G设备;或者采用flyover线缆与PCB相结合,两张PCB的128口400G设备;又或者与现在的TCS9400一样,还是3张PCB搞定的扣板方案;再不然就是基于PHY芯片,多张PCB子卡的方案。那么到底哪一种在112G Serdes时代是技术可行的呢?哪一种是最优的呢?

在回答这个问题之前我们先来看一下交换芯片的发展历程,在过去的10年当中,接口Serdes速率由10G演进到28G,56G直到现在的112G,有10倍之多;交换芯片容量也由640G扩展到51.2T,足足有80倍。

但是Serdes速率与交换容量的增长并不是没有代价的,我们同时看到一些“负面影响”,如功耗越来越大,芯片尺寸越来越大、高速信号损耗的增大引入更复杂的调制解调。那么这些负面影响对于硬件设计来说意味着什么呢?又有哪些挑战呢?

首先我们来看一下高速信号完整性SI。可能大家已经很熟悉的是NRZ编码与PAM4形式,更复杂的编码带来了更快速的信号速率,但是注意其Nyquist频率基本还是在13GHz左右,但是到了112G,不仅采用了复杂的PAM4编码,其Nyquist频率也快了一倍。就像跑步的风阻一样,更快的传输频率就意味着更大的信道损耗,这在112G尤为明显。

信号在整个传输路径上,通过了芯片内部的封装、焊接点、PCB、连接器、过孔等等传输介质后,任何一个部分的优化都对SI至关重要。如果芯片封装、DSP算法、连接器、PCB等SI相关设计不佳,那最左侧发送的信号在经过了这又长又复杂的信道之后,波形就会产生闭合或严重的变形,从而影响信号传输。为了减少信道损耗,增强接收能力,业界提出了一些新的技术与方案,例如采用损耗更小可以传输更长距离的线缆方式、更高速的连接器、超低损耗PCB,以及芯片内更复杂的均衡技术等。

SI之外,散热挑战也很大。特别是端口与交换芯片部分。端口温度高是由于前面板密集的光模块,随着速率的提升,光模块功耗也水涨船高,散热挑战也越来越大,在这一代我们采用了heatpipe的散热手段。随着芯片制程的提高,从最初的50nm、28nm、14nm,到现在的7nm、5nm,其单位速度和容量下的功耗是不断下降的,但是在芯片容量增大80倍的同时,即使有芯片制程的提高,其功耗还是增大了10倍之多;在TCS9400上我们采用了VC加heatpipe这种复杂的散热结构,在下一代51.2T设备上正在评估散热效率更高的Thermosyphon与液冷方案。

硬件、产品设计只是我们的一半工作,是否可以生产,是否可以量产也是我们工作中关注的一个重点。112G是新技术,不仅在之前介绍的SI和散热上对于PCB的制程,散热器的制程提出了更高的要求,也对芯片及组装带来了挑战。更大的芯片带来warpage弯曲效应,在焊接过程中极易引起虚焊,更复杂的散热器、更精密的连接器 需要全新的、更精准的组装方式,这些都对生产制程带来了挑战。

软件同学常说no BB show me the code, 我们硬件也不是只做paper work,针对112G相关技术点及挑战,我们联合合作伙伴一起开发了一款预研设备,用于相关的SI、散热等实物测试的准备工作。我们会通过实际的测试结果来做下一代设备形态的最终评估。

此外我们也在积极参与并领导了一些业内组织,如在QSFP112制定 112G Serdes连接器规范并讨论下一代方案;在S3IP组织里制定适用于数据中心网络设备的CPU模组标准,以及网络设备的生产、上架测试规范等。通过全面的评估预研以及与行业伙伴的一起努力,我们有信心可以攻克一个又一个的技术挑战。

后续演进与展望

最后,让我们回顾并展望一下硬件的发展。通过自研硬件与自研软件,我们使用ToR和Spine交换机两款设备就可以替代之前复杂而又昂贵的商用设备,那之后网络硬件又将向什么方向发展呢?

在数据中心,为了满足不断发展的云业务,同时应对5G、IoT、AI、ML等可能产生的数据爆发,更高带宽和更大交换容量是永恒的需求,但是网络交换设备在总的IDC基础设施中功耗占比越来越大,同时更快的接口速率需要比PAM4更加复杂的编码形式,进一步导致SI及功耗挑战变大。此外,我们现在所用的光模块封装已经沿用超过10年,其尺寸大小在支持更高速率接口时散热空间不够。大家可能听到最近很热门的 NPO(近封装光)和 CPO(共封装光),通过把光模块部分从面板移到交换机内部、与交换芯片die放在同一mezzanine小卡上以减少信号传输距离,甚至共封装在同一substrate上来进一步降低损耗,就可以”完美”地解决以上问题。

在采用这种技术后,以后的交换机形态将会发生变化,前端口将没有光模块而是直接变成光纤接口,光模块内移到交换机内部,SI设计挑战将大为降低,但是又增加了光引擎、光面耦合、绕纤、大功率激光源、多器件散热器不共面、大电流供电等新技术及挑战。采用了CPO技术的交换机有可能改变今后的网络架构,多端口大容量、光纤直连使得它可以跳过ToR直接连接服务器,从而降低延时、减少功耗。不过CPO毕竟是新技术,其稳定性、可靠性、现网是否便于维护有待观察。

回顾之前介绍,我们需要在持续提供稳定可靠的网络的同时保证CAPEX及OPEX低成本,在不断提高带宽和容量的同时保证最优性能,在快速开发保证交付的同时确保引领生态,那之后还有什么可以做的呢?其实还有很多创新点。展望未来,我们需要在系统启动及数据传输的时保证按安全性,提供基于PTP等技术的全网精准对时能力、在DCN以外也提供适用不同场景的其他设备!

欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络最接地气的干货分享。

注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;

注2:本文图片部分来自互联网,如涉及相关版权问题,请联系sandyshuang@tencent.com

/

/

鹅厂网事/

分享鹅厂网络的那些事

0 人点赞