峰会回顾 | 腾讯自研交换机——从100G到未来

前言

11月19日第十一届网络平台部技术峰会在深圳圆满落幕。本次峰会围绕硬件研发、硬件加速、网络产品、网络运营四大领域，深度全面地展示了网络平台部不断精进的研发能力及探索成果。下面让我们共同回顾本次峰会中由硬件研发专家——崔鹏呈现的《腾讯自研交换机——从100G到未来》的精彩内容。

腾讯100G交换机硬件架构及亮点

大家可能比较熟悉的是我们自研交换机的型号TCS8400和TCS9400，其实我们对应的还有产品代号：

○ 给ToR交换机TCS8400 – Aries，对应首字母为A，所以也代表了我们第一款全自研设备，此外白羊座的守护神为战神，也是期望我们这款设备可以勇往向前。

○ Spine交换机TCS9400 – Taurus金牛座，象征了我们这款大家伙的强健性能以及稳定可靠。

在设计之初我们的一个理念就是模块化，我们的交换机都是由不同的功能模块组成的，最重要的就是例如 TCS8400前端口的交换板，TCS9400由于端口比较多所以交换板被分成了3张，上、中、下通过连接器扣合到一起。模块设计的一个好处就在于如CPU板、BMC板、PSU等模块组件可以共用，此外可以方便以后模块升级。同时，我们两款设备的共用物料多达70%以上，在这个物料短缺的时期，可以易于供应链集中采购，避免供应短缺。

需要提出的是TCS9400设备在最开始设计时，是计划做成和上一代一样的可插拔形态，这样做系统设计难度特别是SI风险不大，但是引入了PHY芯片，也就意味着增加了系统成本、功耗及开发时间。经过认真的研究与全面的评估，我们后来决定还是挑战一下自己，采用PHY-less无PHY设计，这样就避免了刚刚提到的那些问题。但是没有了PHY芯片对高速信号的重整与重传，SI链路整体性能预算紧张，充满挑战。

为了在无PHY的情况下提供同样的性能，我们采取了最优化架构设计，充分减少走线距离；同时对128个端口的512个差分对都进行了从芯片到端口的端到端走线优化，在backdrill、anti-pad等局部细节上也做了微调整。经过SI的全面优化，最终的结果是我们的性能不仅可以符合行业规范，并且可以超出标准50%以上。

自研设计中的难点和亮点还有很多，这里就不一一展开了，总结来说在采用了敏捷开发、模块架构、PHY-less方案、端到端的优化之后，我们的自研设备不仅迭代速度更快，同时在性能、质量、成本上相较于商业机都有较大优势。

下一代交换机相关技术难点与挑战

在讨论下一代交换机挑战之前我们先回顾一下我们的网络设备路标。

之前一代是用于25G/50G网卡的定制交换机，现在一代是基于50G PAM4并用于100G网卡的自研交换机。虽然下下一代设备我们不知道长什么样子，但是下一代其实也不难预测，就是基于112G PAM4，用于200G网卡的交换设备，会有什么大的变化么？

以最复杂的Spine交换机设备来讲，下一代设备不外乎以下几种形态：基于一张PCB板卡搞定的64口800G设备；或者采用flyover线缆与PCB相结合，两张PCB的128口400G设备；又或者与现在的TCS9400一样，还是3张PCB搞定的扣板方案；再不然就是基于PHY芯片，多张PCB子卡的方案。那么到底哪一种在112G Serdes时代是技术可行的呢？哪一种是最优的呢？

在回答这个问题之前我们先来看一下交换芯片的发展历程，在过去的10年当中，接口Serdes速率由10G演进到28G，56G直到现在的112G，有10倍之多；交换芯片容量也由640G扩展到51.2T，足足有80倍。

但是Serdes速率与交换容量的增长并不是没有代价的，我们同时看到一些“负面影响”，如功耗越来越大，芯片尺寸越来越大、高速信号损耗的增大引入更复杂的调制解调。那么这些负面影响对于硬件设计来说意味着什么呢？又有哪些挑战呢？

首先我们来看一下高速信号完整性SI。可能大家已经很熟悉的是NRZ编码与PAM4形式，更复杂的编码带来了更快速的信号速率，但是注意其Nyquist频率基本还是在13GHz左右，但是到了112G，不仅采用了复杂的PAM4编码，其Nyquist频率也快了一倍。就像跑步的风阻一样，更快的传输频率就意味着更大的信道损耗，这在112G尤为明显。

信号在整个传输路径上，通过了芯片内部的封装、焊接点、PCB、连接器、过孔等等传输介质后，任何一个部分的优化都对SI至关重要。如果芯片封装、DSP算法、连接器、PCB等SI相关设计不佳，那最左侧发送的信号在经过了这又长又复杂的信道之后，波形就会产生闭合或严重的变形，从而影响信号传输。为了减少信道损耗，增强接收能力，业界提出了一些新的技术与方案，例如采用损耗更小可以传输更长距离的线缆方式、更高速的连接器、超低损耗PCB，以及芯片内更复杂的均衡技术等。

SI之外，散热挑战也很大。特别是端口与交换芯片部分。端口温度高是由于前面板密集的光模块，随着速率的提升，光模块功耗也水涨船高，散热挑战也越来越大，在这一代我们采用了heatpipe的散热手段。随着芯片制程的提高，从最初的50nm、28nm、14nm，到现在的7nm、5nm，其单位速度和容量下的功耗是不断下降的，但是在芯片容量增大80倍的同时，即使有芯片制程的提高，其功耗还是增大了10倍之多；在TCS9400上我们采用了VC加heatpipe这种复杂的散热结构，在下一代51.2T设备上正在评估散热效率更高的Thermosyphon与液冷方案。

硬件、产品设计只是我们的一半工作，是否可以生产，是否可以量产也是我们工作中关注的一个重点。112G是新技术，不仅在之前介绍的SI和散热上对于PCB的制程，散热器的制程提出了更高的要求，也对芯片及组装带来了挑战。更大的芯片带来warpage弯曲效应，在焊接过程中极易引起虚焊，更复杂的散热器、更精密的连接器需要全新的、更精准的组装方式，这些都对生产制程带来了挑战。

软件同学常说no BB show me the code, 我们硬件也不是只做paper work，针对112G相关技术点及挑战，我们联合合作伙伴一起开发了一款预研设备，用于相关的SI、散热等实物测试的准备工作。我们会通过实际的测试结果来做下一代设备形态的最终评估。

此外我们也在积极参与并领导了一些业内组织，如在QSFP112制定 112G Serdes连接器规范并讨论下一代方案；在S3IP组织里制定适用于数据中心网络设备的CPU模组标准，以及网络设备的生产、上架测试规范等。通过全面的评估预研以及与行业伙伴的一起努力，我们有信心可以攻克一个又一个的技术挑战。

后续演进与展望

最后，让我们回顾并展望一下硬件的发展。通过自研硬件与自研软件，我们使用ToR和Spine交换机两款设备就可以替代之前复杂而又昂贵的商用设备，那之后网络硬件又将向什么方向发展呢？

在数据中心，为了满足不断发展的云业务，同时应对5G、IoT、AI、ML等可能产生的数据爆发，更高带宽和更大交换容量是永恒的需求，但是网络交换设备在总的IDC基础设施中功耗占比越来越大，同时更快的接口速率需要比PAM4更加复杂的编码形式，进一步导致SI及功耗挑战变大。此外，我们现在所用的光模块封装已经沿用超过10年，其尺寸大小在支持更高速率接口时散热空间不够。大家可能听到最近很热门的 NPO（近封装光）和 CPO（共封装光），通过把光模块部分从面板移到交换机内部、与交换芯片die放在同一mezzanine小卡上以减少信号传输距离，甚至共封装在同一substrate上来进一步降低损耗，就可以”完美”地解决以上问题。

在采用这种技术后，以后的交换机形态将会发生变化，前端口将没有光模块而是直接变成光纤接口，光模块内移到交换机内部，SI设计挑战将大为降低，但是又增加了光引擎、光面耦合、绕纤、大功率激光源、多器件散热器不共面、大电流供电等新技术及挑战。采用了CPO技术的交换机有可能改变今后的网络架构，多端口大容量、光纤直连使得它可以跳过ToR直接连接服务器，从而降低延时、减少功耗。不过CPO毕竟是新技术，其稳定性、可靠性、现网是否便于维护有待观察。

回顾之前介绍，我们需要在持续提供稳定可靠的网络的同时保证CAPEX及OPEX低成本，在不断提高带宽和容量的同时保证最优性能，在快速开发保证交付的同时确保引领生态，那之后还有什么可以做的呢？其实还有很多创新点。展望未来，我们需要在系统启动及数据传输的时保证按安全性，提供基于PTP等技术的全网精准对时能力、在DCN以外也提供适用不同场景的其他设备！

欢迎关注公众帐号“鹅厂网事”，我们给你提供最新的行业动态信息、腾讯网络最接地气的干货分享。

注1：凡注明来自“鹅厂网事”的文字和图片等作品，版权均属于“深圳市腾讯计算机系统有限公司”所有，未经官方授权，不得使用，如有违反，一经查实，将保留追究权利；

注2：本文图片部分来自互联网，如涉及相关版权问题，请联系sandyshuang@tencent.com

关

注

我

们

/ 鹅厂网事/

分享鹅厂网络的那些事

硬件开发腾讯专有云PaaS平台

0 人点赞