数据驱动光网络的智能运营探索

2020-12-02 15:10:12 浏览数 (1)

/前言/

        面对流量快速增长,如何快速高效提供高质量带宽,保证带宽长期稳定运行,是数据中心互联光网络面临的最大挑战。针对快速高效提供带宽的问题。我们已经具备有效的应对方法。基于数据中心互联组网特点,我们将光网络切割成一个一个独立的单元,首先将这些单元标准化,设计更加适用于数据中心应用的硬件设备OPC-4、TPC-4和设备管控模型,构建标准管控系统,实现对不同厂商设备的统一管理,混合组网。然后将标准单元快速复制到数据中心互联应用中,有效应对数据中心互联带宽的快速增长。

        随着系统规模越来越大,如何保证系统长时间,高质量运行,是我们亟需解决的主要问题。一方面系统在运行过程中会逐渐偏离最佳运行状态,需要持续修正,使系统维持在最佳运行状态。另一方面系统会遇到一些故障,在故障率一定的情况下,系统规模越大,故障总量就越大。如何有效降低故障率,并持续保证系统运行在最佳状态,是提升系统质量的关键。

        我们从标准结构着手,通过科学有效的方法,提升标准结构的高质量运行能力,一旦为标准结构构建起这样的能力,便可以快速将这种能力复制到整个网络。我们以精细化运行数据为驱动,为标准结构构建起自主运行能力,使其能常态化运行在最佳状态。系统持续自主运行在最佳状态,需要系统自身能够基于运行数据,提前发现系统潜在风险,在故障发生前主动处理,防患于未然,有效降低系统故障率。同时以设备运行数据为基础,还可以分析设备运行情况,协助优化设备硬件、软件设计,提升设备质量。

/自动控制架构/

        腾讯开放光网络自动控制架构,本质是一个闭环控制架构。架构的关键点是四大能力构建:控制能力、采集能力、感知能力、决策能力。将这四大能力合理有序串联起来,便可实现整个系统的自动运行。采集能力采集到系统更详尽、更精细的运行数据,感知能力对运行数据分析,感知系统变化;决策能力则使系统具备科学分析,科学决策的能力,依据感知结果对系统作出科学决策,并将指令传递给控制系统执行,实现对系统的闭环控制。

/感知能力构建/

        什么是感知能力?用一个人体体验作为例子,如果人体被针扎一下或者手拧一下,都会体会到疼痛,人体体会到疼痛是一种采集能力,但是我们的大脑能够准确的从这两种疼痛不同的表现方式,体会出差异,判断出区别,这就是感知能力。感知能力是一种对数据的分析能力。在传统光网络系统中,对数据的感知往往是由经验丰富的工程师完成,我们正在帮系统构建起这种能力,使系统能够在无人干预的条件下,实现对数据的经验性转化。目前腾讯开放光网络已经具备了控制能力和采集能力,我们正在进行感知能力和分析能力的构建。

 我们主要从两个维度构建系统感知能力,一个是系统维度,一个是时间维度。系统维度,首先构建针对单个指标的感知能力,通过对指标的感知来判断系统变化。传送平面的硬件和光纤是运营过程中可以操作的基本单元,构建针对硬件和光纤的感知能力,准确感知故障和潜在风险,触发相关运维操作,对问题硬件替换,避免故障发生,可以将故障转化为计划内的网络操作,保证系统质量。传输系统最终是一个带宽系统,从用户角度并不关心系统内部设备、光纤这些组成元素。我们常被用户问及带宽情况如何?带宽的感知能力,则是让系统能够自行回答这个问题。让系统能够感知带宽当前的运行状态,预测带宽未来的运行状态,对潜在风险合理规避,有效降低带宽的非预期性中断,保证带宽长期稳定运行。时间维度,则要为系统构建快速感知能力,中速感知能力和慢速感知能力,这是从系统问题分析时效性出发定义的能力。快速感知是对数据的实时分析,快速捕获系统故障。中速感知则是对系统潜在风险或者关键指标变化的分析和感知,这往往需要一定量的数据进行分析。而慢速感知则是通过对大量数据的分析,来感知系统运行趋势,可以对系统未来的运行状况进行预测。

         接下来介绍不同感知能力构建的典型数据基础。下面这张图展示了对线路光纤衰耗的快速感知能力。通过光纤两端主光通道及OSC(Optical Supervisory Channel)的发光功率和收光功率计算得到光纤衰耗,能够通过光纤衰耗的变化,快速发现光纤故障。同时可以观察到在放大器开启APR(Automatic Power Reduction)功能情况下,主光通道光功率和OSC通道光功率的差异性行为。

        下面这张图展示了对光纤衰耗的中速感知能力,可以观察到在某一时刻后光纤衰耗已经发生变化,持续性的提升了一个台阶,此时系统需要感知到光纤基准衰耗的变化,并正确修正该基准衰耗。因为系统内基于光纤衰耗的分析算法会使用到光纤基准衰耗,光纤基准衰耗的不准确,会直接导致使用该指标的算法无法得到正确结果。

        最后一张图展示了对设备的中速感知能力,可以明显观察出上方图中,A-Z方向由主光通道计算出的光纤衰耗和由OSC通道计算出的光纤衰耗,呈现不同的数据形态。基于OSC计算出的光纤衰耗数据保持稳定,但是相同时间段内,由主光通道计算出的光纤衰耗数据则出现较大范围的波动。进一步分析可以发现,这个现象是由于A端的主光通道发送光功率不稳定导致的,并不是线路光纤出现问题。因此通过对一段时间内的数据进行分析,为我们发现设备潜在故障提供准确线索。

        目前系统的感知范围还主要集中在光纤纤芯内部和设备内部,但是实际中我们遇到的光纤故障,往往是由外界影响导致的,比如挖掘机将光缆挖断。因此我们需要将感知能力扩展到光纤外部几米的范围,使系统能够感知光纤外部环境变化,这是系统能够防患于未然的关键。针对这个问题,一方面我们通过在光层设备中引入光纤传感技术,提升系统对光纤周围环境的探测能力,另一方面我们在深挖系统中沉睡的光学指标,通过合理计算,扩展系统的感知边界。从这两方面努力,使我们能够提前预警光纤中断风险。

/系统架构变革/

        数据驱动推动系统架构发生革命性变革。网络控制器与设备组成的管控系统,需重新按照以数据为中心进行设计。依照系统功能需求和实际资源分布,重新分配整个管控系统的计算能力。将系统主要计算能力上移到控制器,结合计算平台自由伸缩特性,为系统提供弹性计算能力。同时降低计算能力受限的设备的计算负荷,将广泛分布于网络中的设备,改造成网络运行数据采集单元,持续快速的向控制器推送网络的实时运行数据,由控制器完成基于全局视角的系统分析和控制。

        从光纤故障处理的具体场景,对比数据驱动型系统与传统管理系统的区别。当光纤发生故障后,传统系统中设备产生LOS(Loss of signal)告警,并将告警传递给网管,网管将设备告警传递给上层管理系统(OSS);上层管理系统接收到设备告警后,并无法直接判断故障,此时会下发查询指令,向厂商网管查询相关设备的性能数据;网管会根据请求,向设备下发查询指令,设备向厂商网管报告15min性能,然后厂商网管继续向OSS上报设备返回的15min性能。光网络设备的计算能力有限,在故障的时候要产生告警,同时又要应对集中的查询请求,这就是往往在发生故障的时候,操作人员体会到设备反应变慢的根本原因。而且越是反应慢,操作人员越会连续触发设备查询请求,导致情况变的更糟。传输设备作为整个系统中计算能力最弱的单元,却在最关键的时候承担了主要计算压力,这样的系统计算能力分配是不合理的。

        在腾讯开放光网络系统,我们按照系统各单元的客观计算能力条件,重新分布了整个系统的计算能力。将设备的计算需求减载,将主要计算能力上移到控制器。将设备改造成一个精细、稳定的采集装置,源源不断的采集系统运行数据,持续、快速向控制器上报。控制器承担主要计算能力。对于相同的光纤故障处理场景:设备采集性能数据持续上报,控制器根据所有设备上报的性能数据及网络逻辑结构数据,快速计算得到光缆故障的结论,并反馈给上层网管系统。如果上层网管系统需要查询故障当时的系统性能数据,则直接向控制器进行请求,此时所有的设备性能数据均保存在控制器,控制器并不会向设备发起查询命令,而是将该查询请求终结在控制器内部。即使上层管理系统,有突发的多个查询请求,控制器也能够合理应对。系统计算能力重新分配,让设备和控制器更加合理的承担系统功能,使系统更加高效运转。

        设备作为整个系统的运行数据采集终端,我们在想办法提升其采集数据的速率和精度,在我们的持续努力下,目前设备可以按照1s间隔向控制器推送性能数据,而且关键性能指标的时间分辨率可以达到20ms。控制器作为系统计算能力主要单元,则在持续提升其数据处理及时性和准确性。基于1s streaming telemetry构建的数字驱动系统,对比传统传输系统的15min性能数据,不仅仅是900倍的时间分辨率提升,更是对系统观测能力的革命。正是基于对系统的精细化观测,使我们能够精确感知、准确控制。

/挑战/

        数据驱动为系统带来革命性变化的同时,也带极大挑战。数据驱动的核心是:数据与算法。我们希望在这两个方面,与更多的合作伙伴一起合作。在数据为王的时代,数据源的质量直接影响到系统的正确表达,如何保证数据源的质量,如何监控数据源的质量,是一项关键任务。而找到数据背后的真相,发现问题的本质则会从根本上改变我们和供应商的协作方式,由原来只能在问题发生后被动接受故障分析报告,演进到可以根据数据发现真相,有效驱动供应商进行精准的问题修复,防患于未然。在算法方面,找到针对指标感知更加通用的算法,找到更加合理的带宽质量分析算法,找到更加通用的硬件和光纤分析算法,则是我们关注的重点。在有效解决光网络系统问题的同时,更通用的算法,也可以更加便捷的应用到其他网络领域中。

欢迎关注公众帐号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络最接地气的干货分享。

注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;

注2:本文图片部分来自互联网,如涉及相关版权问题,请联系v_meizhuang@tencent.com

鹅厂网事

分享鹅厂网络的那些事

扫码关注!解锁更多~

0 人点赞