SIGCOMM’22会议概览与热门论文解读

作者简介：任语铮，北京邮电大学网络与交换技术国家重点实验室在读博士研究生，研究方向为工业互联网、标识解析、网络人工智能等，邮箱地址：ryz_95@163.com

SIGCOMM全称Special Interest Group on Data Communication，即美国计算机协会（Association for Computing Machinery，ACM）数据通信专业组，是ACM组织的通信网络领域的旗舰型会议，也是目前国际通信网络领域的顶尖会议。其中，ACM 有下属37个专业组织 (Special Interest Group，SIGs)，SIGCOMM即为其中之一。SIGCOMM为计算机网络方面国际三大顶尖会议之一，另外两个会议分别为ACM MOBICOM和 IEEE INFOCOM。作为计算机网络领域资历最老的顶级学术会议，ACM SIGCOMM自1977年起已经举办了五十余届。

SIGCOMM对论文的质量和数量要求极高，质量方面要求具有基础性贡献、领导性影响和坚实系统背景，数量方面每年只录用30篇左右的正式会议论文，录取率约10%。近两年有所上涨，大约在50篇左右。会议采用Double-Blind审稿，因此保证了审稿质量；并且采用Single-Track演讲，从而保证每篇论文的演讲都能被所有参会者听到。由于SIGCOMM录用的论文大多数都会被广泛引用、具有非常大的影响力，因此能在SIGCOMM上发表论文是所有通信网络研究者的最高荣誉。

SIGCOMM’22会议概览

本次SIGCOMM’22的组织委员会包含33位专家学者，包括东道主荷兰代尔夫特理工大学Fernando Kuipers、明尼苏达大学Zhi-Li Zhang、复旦大学Yang Chen、香港科技大学Gareth Tyson、香港科技大学Pan Hui等。此次会议的钻石赞助商为Amazon；铂金赞助商为CISCO、Meta、阿里巴巴集团、华为；金牌赞助商包含intel、Google、Microsoft、ByteDance；银牌赞助商为Hewlett Packard；铜牌赞助商包括COMCAST、CLOUDFLARE、Akamai、NETFLIX、SIDN LABS、BROADCOM、VMware等。

此次SIGCOMM’22共投稿论文279篇，收录论文55篇，分11个Session，分别涵盖数据中心、5G网络、拥塞控制、广域网、测试与验证、机器学习、监控和测量、无线通信、可编程数据平面、DoS防御和存储网络、主机网络和视频传输等多个技术领域和方向。在本次SIGCOMM’22会议，国内入选论文数量再创新高，共有18篇论文来自国内，其中阿里云与清华大学各自以6篇领跑，华为2篇，国内上榜的其他单位还包括北京大学、南京大学、同济大学、西安交通大学、香港科技大学、香港理工大学等。

在2019年以前，SIGCOMM论文长期被微软、谷歌等国外巨头企业以及麻省理工学院、斯坦福大学、卡内基梅隆大学等垄断。纵观2019年之前SIGCOMM近50年的历史，来自中国大陆的企业和高校总共也仅有10余篇论文入围。近年来，国内入选的论文也终呈破竹之势源源不断增加。其中，高校以清华大学为代表，企业则以阿里云为代表，均连年有论文入选，体现了国内在网络领域研究创新成果达到了国际领先水平。

热门论文解读

Understanding 5G Performance for Real-world Services: a Content Provider’s Perspective

这篇文章来自“5G网络”这一Session。

研究背景

5G 最近发展迅速，吸引了多项关于其覆盖范围、连接性和服务质量的测量研究。然而，首先现有的测量研究主要集中在仍然使用4G的核心网络的NSA 5G上；其次，以前的测量研究主要是从ISP和智能手机供应商的角度进行的。因此，仍然缺乏从内容提供商 (CP) 的角度来了解5G的能力和其潜在影响。

在释放5G的能力前，CP需解决以下问题：

1）CP可以从5G网络日益增长的使用中获得哪些QoS / QoE的好处？

2）CP可以采取哪些实用策略来充分利用5G在性能和架构上的新功能？

故而，该文章通过研究快手一年内超过 2300万用户使用的5G网络来填补这一空白。

设计方案

该方案建立了被动收集的大规模数据集，并在测量研究中进行了主动实验。

1) 被动数据收集：在快手中，内容提供商和用户使用相同的应用程序上传和接收视频流。应用程序中实施了数据收集机制，以便内容提供商和用户不断收集信息并定期上传到日志服务器。特别是，用户在过去时间窗口（10秒）的状态信息和统计信息（也称为切片）在每个切片的末尾报告。内容提供商和用户具有非常相似的报告机制：跟踪项在每个切片中生成和上传。

在每个切片中，对内容提供商和用户，都收集了状态信息，包括：

a）设备信息，即用户的设备型号，ID和电池电量

b）流媒体和会话信息，即频道/会话ID和视频编解码器信息

c）网络信息，即网络类型（例如，“SA 5G”），ISP（例如，“中国移动”），服务器的IP和基站信息。此外还收集了QoS/QoE信息。在 2020 年 12 月至 2021 年 11 月的被动数据收集中，该文章从内容提供商和用户那里收集了超过 100TB 的原始日志。原始日志总共有 1.78 × 1012 个由用户报告（其中 1.31 × 1010 个标记为 SA 5G）；2.67×1010个日志由内容提供商报告（其中 4.06 × 108 个标记为 SA 5G）。

2)主动测量：该文章通过使用traceroute进行主动测量来进一步研究核心网络的结构。首先选择一组2个源服务器的域名和2个CDN服务器的域名，并将它们用作运行traceroute任务的目标。然后，选择最活跃的500万快手5G用户，并将traceroute任务分配给2021年9月两天晚上7点左右在线的用户。每个用户执行traceroute5次以减少随机性。最终，分别在两天内成功检索了超过86.6k用户和87.7k用户的traceroute结果，其中10.6%被标记为SA 5G，32.7%被标记为4G。

实验结论

该文章的通过测量研究发现：

1) 与4G或非SA (NSA) 5G 相比，独立(SA) 5G通常提供端到端性能改进，但其优势取决于蜂窝用户数量和CP级配置；

2) 在无线接入网络中，SA 5G 对接入密度更敏感，但具有更好的切换容限；

3) 对 29 种移动设备模型的能耗控制实验驳斥了一些“传统智慧”，包括5G总是消耗更多的电力；

4) 在 300 多个城市进行的基于 Traceroute的主动实验表明，尽管用户在SA 5G中“更接近”互联网，但他们的端到端延迟可能不会从中受益；此外，我们为5G参与者展示了新的设计空间，并提供了一种5G感知的缓冲策略，在快手上经过900万用户的测试，缓冲比例降低了7%。

Predictable vFabric on Informative Data Plane

这篇文章来自“可编程数据平面”这一Session。

研究背景

可预期高性能网络，是阿里云基础设施研发的下一代数据中心网络架构，是一种可以为上层应用提供稳定的可用性、带宽和低延迟保证的网络，其核心目标是“为应用提供微秒级别的时延和带宽保障”。阿里巴巴发表在SIGCOMM’22的两篇论文“µFAB”和“Solar”分别阐述了实现上述目标的两种重要技术手段。μFAB揭示了端网协同的融合设计，利用可编程网络提供的精细网络信息，在端上智能网卡用于速率控制和路径选择。这些设计的部署，极大地提升了网络传输的服务质量，也给云上客户以及未来算力融合带来了持续价值。本文首先介绍“µFAB”。

在多租户数据中心中，租户的虚拟机（VM）通过虚拟网络结构（VF）在逻辑上互连，即使所有租户共享同一物理网络也像在专用集群中一样。然而，目前虽然业界已经提出了许多解决方案来提高多租户数据中心网络（DCN）的性能，但由于以下两个原因，它们无法提供高度可预测的VF服务，包括带宽保证、工作保护和有界尾延迟。首先，目前的VF工作的收敛速度（数十毫秒）无法赶上当今应用日益严格的性能需求；其次，端到端带宽保证很容易被与保证无关的路径管理方案所破坏。从根本上说，为了让VF快速收敛、做出正确的路径选择，关键在于感知细粒度的网络状态，例如，带宽订阅和链路利用率。然而，由于缺乏细粒度的网络状态，先前的工作不得不承受启发式速率的调整和面向利用率的负载平衡，甚至是随机路径选择。幸运的是，新兴的可编程交换机和NIC带来了获取实时和精确网络信息的可能性，为构建专用的可预测性框架开辟了新的机会。因此该文章提出了“μFAB”，这是一个为数据中心租户提供高度可预测的VF服务的框架。通过在数据中心中利用可编程 NIC 和交换机，“μFAB”以端到端的方式同时提供最低带宽保证、工作保护和有限尾部延迟。

设计方案

1)层级式带宽分配。首先，边缘为每个流选择一条路径，以保持通过链路的租户的最小带宽保证之和不超过链路容量。因此，只要链路容量由流按其最小带宽的比例共享，则可以保证所有租户的最小带宽。然后，边缘快速准确地调整发送速率，使带宽利用率收敛到目标。因此，即使部分租户需求不足，未使用的带宽也可以被共享同一链路的其他租户快速利用;相反，如果租户有即时的流量需求，它可以快速抢回其保证的带宽，分析表明，μFAB可以实现严格保证的最小带宽和高网络利用率。

2) 两阶段和基于窗口的流量准入。为了避免排队，每个边缘都使用一个按带宽更新的窗口利用率，即基于利用率的窗口，用于限制路径上租户的流量。在主机中，μFAB控制每个租户的总突发流量达到其最小带宽保证，并附加地增加其发送窗口，直到基于利用率的窗口下降，并开始使用后者。因此，μFAB可以将瓶颈链路上的队列大小限制为带宽延迟积（BDP）的三倍。

3) 准确稳定的路径迁移。μFAB对可用带宽和单个探测器的路径上延迟峰值的风险做出及时准确的判断，而不是确实将流量放在路径上。因此，边缘可以迅速选择适当的迁移路径来保持端到端性能，而无需漫长的收敛过程或影响其他无辜的租户；此外，μFAB的路径迁移还可以避免振荡和数据包重新排序。

实验结论

新兴的可编程数据平面是解决在多租户 DCN 中提供可预测的虚拟结构的特殊挑战的关键——μFAB就是一个例子。该文章提出了μFAB，这是一种可预测的虚拟结构解决方案，μFAB通过活动边缘和信息核心的融合构建了可预测的VF服务，其创新在于通过简单有效的机制，可以为所有流显式选择正确的路径，并且使整个网络在亚毫秒级时间尺度上收敛到可预测的租户级性能（例如，保证带宽和有限延迟）和高利用率。我们证明，“FAB”可以通过商用智能网卡和可编程开关高效实施。

From Luna to Solar: The Evolutions of the Compute-to-Storage Networks in Alibaba Cloud

这篇文章来自“DoS防御和存储网络”这一Session。

研究背景

“Solar”是构建可预期高性能网络，实现为应用提供微秒级别的时延和带宽保障这一目标的另一种重要技术手段，Solar阐述了应用和网络融合的设计理念，利用数据包和数据块的一一映射，从而极大简化状态处理，提高处理吞吐、降低时延。本文继续介绍“Solar”。

在计算存储分离架构下，所有的存储I/O都需要网络传递，因此网络成为存储应用的重要瓶颈。而存储流量本身占了整个数据中心网络（DCN）的60%左右，大量的流量都是很多的小流组成的，例如40%的流量都不超过4KB。因此，存储的流量对于带宽和时延都有极高的要求。

在过去五年中，阿里云设计了两代存储网络协议将其EBS服务的平均I / O延迟降低了72%，一代是Luna，一种用户空间TCP堆栈，将网络延迟与SSD的速度相对应；二代是Solar，这是一个面向存储的UDP堆栈，可实现存储和网络硬件加速。在2018年，阿里云在计算到存储部署了用户态tcp协议Luna。Luna是迈向“存储分解”架构中高速计算到存储网络的第一步，裸金属云为租户提供整个物理主机，这样租户不仅可以灵活地定制机型和虚拟化平台，快速上云，还能提供安全和性能的保障，实现了网络到存储的零拷贝和无锁、零共享等机制，长尾延迟降低了80%。支持了新发布的ESSD产品，实现百万IOPS和100微秒的I/O时延。与传统内核态的tcp协议相比，Luna不仅带来巨大的性能提升和CPU节省，更重要的是，阐释了网络和存储卸载到硬件中的必要性以及从网络故障中即时恢复的重要性。然而，裸金属云在提供给租户更多可能的同时，也面临自身性能和成本的挑战。因为在将整个物理服务器交付给租户的同时，裸金属也不得不将云基础设施软件运行在“非侵入式”的硬件中，通常是网络设备，如智能网卡、DPU、IPU、交换机等等。这样的部署面临着资源受限和带宽受限两大挑战。所以理想情况下，希望数据平面能够直达主机PCIe，不用经历智能网卡内部PCIe的中转。因此，该文章探索存储与网络融合的Solar协议，旨在极大地卸载存储和网络处理到硬件网卡中，从而降低CPU开销，在提供网络性能的同时规避网络故障。SOLAR消除了存储网络传统架构中多余的复杂性和过度状态。

设计方案

1)Solar系统设计：Solar设计目标有两个方面。一方面，为了适应新的计算架构，它应该显着减少ALI-DPU上的CPU开销，并通过允许将网络堆栈和SA卸载到硬件来避免内部PCIe通道。另一方面，为了解决LUNA中的可靠性问题，Solar应该能够检测并避免路径主动变化的网络内故障。具体做法是对网络和存储进行跨层融合，利用网络的jumbo frame使得一个网络的数据包就直接等效成一个存储的block。这样协议上就不需要维护数据包到block的映射，也不会有在丢包后出现的队首阻塞问题。更少的状态处理也意味着Solar能够节省CPU开销，以及支持多路径等能力。

2)Solar工作流：Solar 使用“一块一包”网络转换实现I/O操作。首先，将存储I/O拆分为一个或多个传出RPC，朝向不同的存储服务器。然后，每个RPC数据包分别为写入I/O 和读取 I/O 传递和检索一个数据块。该文章分别给出了Solar的系统架构以及 I/O 写入和读取操作的工作流程。写入操作：当客户机向 VD 发出写入命令时，I/O 操作将通过 NVMe 命令直接转发到 ALI-DPU 上的 FPGA。QoS和块是两个典型的“匹配操作”表检查步骤：QoS执行I / O操作的准入控制，以强制实施带宽约束，以维护每个VD的服务级别协议（SLA）; 块将VD的块地址（即逻辑块寻址或 LBA）转换为远程块服务器中物理磁盘的相应段地址。大型I/O（例如，256KB 写入 I/O）可能由位于多个块服务器中的LBA地址组成，因此块通过调整LBA地址将 I/O 拆分为较小的 I/O，每个块服务器一个。读取操作：为了容纳传入的块数据，Solar维护一个Addr表，用于记录RPC和数据 ID以及相应的客户机内存地址。与写入I/O一样，读取 I/O 将遍历QoS和块表，以执行请求允许、分段查找和潜在的I/O 拆分。当为每个（可能是拆分的）I/O 发送RPC请求时，RPC会在Addr 表中为每个传入数据包填充一个条目，并在应答到达后将其删除。由于READ 响应中的每个数据包都是一个独立的数据块，并且IO大小通常很小，Solar以线速执行数据包处理，而无需缓冲或在Addr表中维护额外的状态。

实验结论

自 2020 年以来，SOLAR 在阿里云的产品中部署了约数十个计算集群和大约 10 万台服务器。该文章使用来自集群的监控数据和测试平台结果来评估 SOLAR 的性能和资源消耗。从线上观测看到，Solar可以提升I/O性能，避免 IO 因网络故障而挂起。在采用Solar之后，计算侧SA的长尾时延下降了40%，这是因为Solar采用了存储流量的数据平面卸载，这样减少了CPU上的协议处理时延和时延的抖动。同时，由于流量不用经过两次DPU上的PCIe bus，所以网络吞吐能够翻倍。多年的线上实测试数据表明，随着Luna和Solar的规模化部署，EBS存储的时延在近几年降低了72%，而IOPS提高了3倍。

【活动专栏】

【转载须知】

若转载文章为原创文章，可在相应文章下或公众号后台留言；其他非转载类文章须在文首以不小于14号字体标明转载自SDNLAB。

【投稿】

欢迎智能网卡/DPU、SDN、SD-WAN、确定性网络、TSN、5G、网络切片等网络方向的观点类、新闻类、技术类稿件。

联系人：kk__wu(微信号)

投稿邮箱：pub@sdnlab.com

详情请参考：SDNLAB原创文章奖励计

5g 存储

0 人点赞