局域网SDN硬核技术内幕 31 钩深致远 —— 意图驱动与自动驾驶(中)

昨天，我们提到了，为了在数据中心网络的吞吐量和无丢包之间找到平衡点，我们需要合理配置交换机的流控触发水线，避免交换机发起流控过迟而无法避免丢包，或过早发起流控而使得上下游服务器无法充分利用网络资源。

极少数的交换机厂商为了解决这个问题，付出高昂成本，在交换机内部增加了边缘推理单元，以实现自动调整交换机水线，试图达到充分利用网络资源的效果，但并没有得到市场的认可。这是因为——

上图是一个典型的自动控制的闭环。瓦特利用这种闭环控制的原理，使得蒸汽机成为了人们容易驾驭的安全可靠的机器，从而引发了工业革命。可以认为，人类数百年来工业时代的辉煌，是离不开这个闭环的。

但是，传统闭环控制带来的数据孤岛，也使得自动化系统“只见树木，不见森林”的矛盾越发突出。将这种基于数据孤岛的自动控制应用在分布式的网络中，背离了SDN全局控制的理念，无法解决PFC死锁、应用与会话可视等问题，也没有办法将带内遥测(INT)等实现全局检测的先进探测技术，通过大数据的手段应用于网络控制，最终的结局必然是被市场无情地抛弃。

正如中国和西方国家同时提出“工业4.0”、“工业互联网”、“中国制造2025”等先进理念那样，在网络的管控中，我们也需要利用AI及大数据技术，打破闭环，构建全局控制系统，进而实现数据驱动的社会化大生产，甚至推进下一轮的社会变革。

基于这方面考虑，我们需要通过大数据的应用来进行从云到网的全局调整，也就是实现业务的自动驾驶。

以RoCE业务的丢包为例。丢包的原因是网络拥塞，而网络拥塞实际上是有先兆的。

如图，4个配置25G网卡的MAPR存储节点，向1个配置100G网卡的TensorFlow计算节点发送数据，这时，交换机的缓存使用量是稳定的：