案例|Zabbix如何为中国铁路动车组WiFi运营服务系统保驾护航?

2021-03-23 11:46:05 浏览数 (1)

本文转载自高鹏. 基于Zabbix的铁路动车组WiFi运营服务监控系统应用研究[J]. 铁路计算机应用, 2019, 028(004):22-27.

高鹏,中国铁道科学研究院集团有限公司,电子计算技术研究所助理研究员。

摘要

为了掌握铁路动车组WiFi运营服务系统实时运行状态,提高系统运维效率,缩短售后响应时间,节约应急资源,使运营管理和服务智能化,提出一种基于Zabbix的综合性监控系统。在阐述Zabbix开源框架与数据可视化基础之上,结合铁路动车组WiFi运营服务系统部署环境及应用场景,围绕系统运维及管理的实际需求,研究Zabbix监控系统关键技术。

利用Zabbix优秀的性能和可扩展性,将车载WiFi设备系统参数信息、列车开行信息、平台运营等数据高度集中、可视化展示,同时通过使用推送媒介建立实时性、高效性的推送机制,构建多层次、立体化的综合监控管理平台,实现了对铁路动车组WiFi运营服务系统资源数据的高度共享。充分利用现有技术条件,可以提高铁路动车组WiFi运营服务系统运维的高效化、统一化、智能化水平。

为什么选择Zabbix

尽管目前市场上有较多的开源监控系统产品,如Nagios、Cacti、Zenoss 等,一定程度上提高了运维效率,节约了运维成本,但其服务对象相对单一,可定制性差, 无法满足日益增长的企业级服务发展需求,而开源监控方案 Zabbix 依据其强大的展现功能和可扩展性, 加上独特的开源性和简单易用等特点 , 更适用于铁路动车组 WiFi 运营服务综合监控系统。

一 监控系统概述

1.1 监控系统场景分析

铁路动车组 WiFi 运营服务系统主要由运营管理中心、地面网络和车载局域网 3 部分组成,其网络结构主要包括互联网接入和车载局域网两部分,系统结构示意图如图所示。

互联网接入作为整个动车组 WiFi 运营服务系统 的互联网出口, 通过车顶 3G/4G 天线与铁路沿线运营商公网基站建立无线连接通道;车载局域网为车厢内用户终端和单车设备之间提供车内通信网络,车内用户终端可共享车载无线局域网系统的内容服务,车厢单车之间通过车载局域网实现互联互通。

1.2 监控系统需求分析

2017 年 6 月,首列“复兴号”标动列车正式上线运营,铁路动车组 WiFi 运营服务系统作为“复兴号” 标动列车的配套设施也随之面世,旅客乘车期间可以享受铁路动车组 WiFi 这一增值服务。随着大批量标 动“复兴号”列车投入运营,铁路动车组 WiFi 运营 服务体系规模不断扩大, 其运营管理上亟需实现实时掌控系统运行状态、监控系统突发事件, 以动态调整运营策略,进而实现铁路动车组 WiFi 运营服务 价值最大化。为满足动车组 WiFi 运营服务需求,根据铁路动车组 WiFi 运营服务系统业务架构, 构建基 于 Zabbix 的车 - 车、车 - 地、地 - 地一体化综合监控 系统平台 [5] , 分别从铁路动车组 WiFi 运营服务系统 硬件层面、系统层面、业务层面进行需求分析,以实现对不同层次粒度数据的采集与融合。

二 监控系统部署方案

三 监控系统应用

3.1 监控系统关键技术

高性能网络数据包缓存与转发

基于铁路动车组具有配 属局分散、不集中等特性,为避免铁路动车组 WiFi 运营服务监控系统的 Zabbix_ Server 端 无 法 承 受 来 自 终 端 Zabbix_Agentdd 频 繁 请 求压力,Zabbix 监控系统以 列为单位,将列车采集数据 集中到同一数据缓存节点,Zabbix_AAgentd 在该缓存节点拿取数据,以主动上报方式传到 Zabbix_ Serve 端。该监控系统设定车载中心服务器作为每列车的数据缓存节点,在其部署Zabbix_ Agentd,并配置对应列车的 Host_name。各车厢单车服务器及 AP 产生的数据集中到车 载 WiFi 接入控制器(AC)上,车载 AC 将接收到的数据集中于车载中心服务器基于分 布式文件储存的数据库(mongoDB)中存 储 , 数据以设备 ID 分类罗列。如图 4 MongoDB 中展示了 ID 为“ZTC-01-000BABDF3355 (设备生产商编号 - 设备类型编号 - 设备 MAC)”中 心路由器上报的参数。Zabbix_AAgentd可直接从 MongoDB 中调集参数上报给 Zabbix_Server 端,这种上报方式减少了 Zabbix _Agentd 部署节点数量,缓解了 Zabbix _Server 端的处理压力,对动车组 WiFi 运营服务监控系统后续性能的扩展有着重要意义,提升了监控系统平台的实时性和稳定性。

通信协议转换

铁路动车组 WiFi 运营服务系统涉及诸多旅客 私密信息,为保障 Zabbix 监控系统服务端数据的安全性,将 Zabbix_Server 从原有的公网阿里云端迁移到客票系统内网部署。

日志集中检索与全链路追踪技术

日志集 中分析平台从日志产生到提供检索延时不超过5 s,平均检索耗时在 3 s 以内,为研发与运维人员提供了 强有力的故障定位工具,同时也是平台运行状况 监控的重要数据源。

四 监控系统应用

4.1 监控系统应用

车载 WiFi 设备是铁路动车组 WiFi 运营服务系 统重要组成部分,其状态好坏会直接影响铁路动车组 WiFi 运营服务质量,因此,实时掌握车载 WiFi 设备运行状态,是提高系统稳定,增强用户体验感的必然前提。Zabbix 监控系统通过实时监测终端设备的心跳包 ( 客户端与服务器间的响应数据包 ),根据其呼应频率特性分析,判断设备在线状态。车载接入器(AP)作为 WiFi 运营服务系统中数量多,易被攻击的设备,其状态的好坏对整个系统稳定显得至关重要,本监控系统设置 30 s 为一上报周期,对其状态进行实时性监控。预设 AP 在线状态值为 1,不在 线状态值为 0,车载控制器(AC)设定 15 min 为一 周期, 对 AP 上报状态结果进行分析判定,以单车厢分组(每单车厢固定配置 2 个 AP),展示出周期内上报数据的最新值、最小值、平均值、最大值,根据图形化状态图趋势,直观获取终端 AP 在线状态,进而评估系统的稳定性。其状态分析展示如图 5 所示。

4.2 系统应用监控

通过对终端设备系统应用参数的采集, 将实时数据进行图形化展示,图 6 展示了应用系统 1 min 内 的平均负载、内存占用的历史记录。随着列车开行时间的推移,铁路动车组 WiFi 运营服务系统接入用户数累计增加,中间件(MYSQL)事务每秒查询和回滚率随之上升,通过对多系统参数指标的参考,用以整体性分析、评估系统运行的平稳性和健壮性。

4.3 运营商网卡数据监控

通过使用脚本程序添加自定义监控参数, 形成监控网卡数据的可视化界面。从图 7 可以看出列车在不同行驶时间、行驶区段各运营商网卡信号强度的变化趋势,图 8 展示了旅客用户在 WiFi 使用过程中带宽的实时变化趋势, 图 7、图 8 中都有出现数据 急剧变化的区段,这与列车穿过隧道或车站, 隧道或车站对运营商的信号有很大的屏蔽效应有直接关系,同时信号强度以及带宽上下的波动会受铁路 沿线运营商信号覆盖率的影响。

五 利用Zabbix强大的API扩展能力

基于 Zabbix 监控技术与数据可视化研究的基础上,针对 Zabbix 分布式、可扩展性等特点,结合铁路动车组 WiFi 运营服务系统运营数据建立监控环境,进行Zabbix 监控系统的搭建和优化,利用其强大的应用程序接口(API)扩展能力,实现了动车组 WiFi 运营服务系统相关资源的整合。通过用户定制,添加自定义监控项,完成了对动车组 WiFi 运营服务系 统数据的可视化监控与管理,这些改进突破了传统系统平台的运维管理方式,整合了监控管理工具和通用集中监控系统的优势,对保障铁路动车组 WiFi 运营服务系统平稳运行具有重要意义。本监控系统全面应用以来,以监控代替检查,实现了系统运维的数字化、信息化及自动化,不但节约了运维人力的投入,而且精准度高,预警性强,切实为铁路动车组 WiFi 运营服务系统起到了保驾护航的作用,同时该系统监控系统的建设及改进对类似大型企业级应用具有借鉴价值。

由于文章篇幅有限,本案例在部署方案、技术应用部分没有完整呈现,想要获取完整版pdf,转发本文到朋友圈,不分组可见,即可获得。欢迎联系小Z:17502189550。

Zabbix客户案例集合,你还想了解Zabbix在哪个行业的应用,欢迎留言。

0 人点赞