重庆广播电视集团如何基于Zabbix实现播控系统自动化运维?

2021-09-29 16:00:33 浏览数 (1)

本文转载自刘云. 基于Zabbix的播控系统自动化运维[J]. 西部广播电视, 2019, No.460(20):230-231 253.

刘云,重庆广播电视集团(总台),工程师。

01

背景

重庆电视台播控系统是2016年建成的全高清文件化播出控制系统,包含3个上星频道、10个地面频道和5个备份频道,所有播出素材以MXF格式绑定节目代码送播,自动技审系统审查非法画面后,节目整备系统按照节目单日期自动迁移和同步,播出软件根据已绑定实体信息的预播单按照时间线准时播出,并同步控制字幕包装系统。

为了实现系统的高度自动和稳定可靠,系统内部署了近200台服务器,二级存储系统2套,以及大量周边连接、转换和分配设备。网络采用二级扁平结构,核心交换机下挂堆叠汇聚交换机。该系统除播出核心外全部实现IP化,只需一根网线就能解决一个设备的全部通信问题,还以IPG IPX的方式实现节目信号流的IP化传输。

为了保证播出业务的连续性和稳定性,需要及时掌握系统硬件、系统软件和应用程序的可用性,需要获取各个组件的运行状态,如CPU的利用率、系统的负载、服务的运行、端口的连通、带宽流量、网站访问状态码等信息。而这一切都离不开监控系统。

02

监控系统

开源的监控软件解决方案类型有流量监控和性能告警两类可选,但都能达到对信息系统服务可用性的完全展示。Zabbix系统是一种分布式性能告警监控系统,具有其他监控系统不可比的灵活扩展性和丰富功能。监控系统使用的关键,是根据实际的经验值、业务需求来配置告警阈值。

监控平台:

Zabbix服务器的平台,本次选择的是Zabbix3.4 CentOS6 MySQL的组合。

监控方式:

Zabbix监控逻辑

03

监控配置

本台设置2台ZabbixServer分别监测内网和外网设备,设置了7个Proxy,共设置光传输、二级存储、数据库、播出硬件、节目编单、交换机和支撑业务7个主机群组。同一群组内的主机均属于同一IP段且本系统内大部分设备支持SNMP,一台主机可能有多个监测项目而同时属于多个群组。本地机房内的设备全部由代理程序监测,便于管理和降低服务器压力。

二级存储群组主要监控主机是主备二级存储的10个节点,监控项目是存储、带宽、硬件及管理系统的告警。

数据库群组监控所有数据库的硬件状态、程序运行状态和备份状态。使用SNMP方式,监测对象含3台播出数据库,2台总编室数据库,2台字幕内网数据库,2台监控数据库和1台公共备份数据库。其中播出和总编室数据库还做了异地备份的状态监测。2台字幕外网数据库纳入了Zabbix-Server2的监测。

硬件群组主要监控播出相关的82台业务主机的硬件状态,包含播出工作站、应用服务器(迁移、编单)、支撑服务器(监播、备份、管理)等。

节目编单群组监控总编室数据库和Web服务器,以SNMP方式接收告警。其中Web服务器上部署的Tomcat需要使用JMX方式监测。同时,增加对部署在Web服务器上的在线编单服务的网址访问监测。

交换机群组主要监控2台虚拟化的核心交换机和4台堆叠的汇聚交换机,主要监控方式是ping,目的是确保网络畅通。

支撑业务群组监控对象包括域控、迁移、技审等支撑业务的运行状态,对每台服务器上运行的业务程序状态进行监测。为了实现告警信息的微信转发,将ZabbixServer部署在摆渡外机上安装的虚拟机内。摆渡外机部署了杀毒软件,Proxy和Server之间使用Zabbix专用格式通信,通过网闸确保信息安全。如图所示。

监控系统架构

04

监控效果

4.1微信实时推送

创建微信企业号,配置ZabbixServer接收到告警信息后,转发给微信企业号的后台接口,然后推送到微信企业号。运维人员通过管理员邀请加入企业号,就可以实时接收播出系统告警信息。

4.2存储监控

通过监控存储空间变化,可以帮助判断:数据库备份是否成功执行数据库膨胀趋势;监播软件是否录制正常,利用中断记录反查线路故障;日志膨胀导致存储空间不足进而系统不稳定。

本台曾出现PGM信号随机短时中断现象,通过分析Zabbix记录的监播存储异常变化,精确地掌握了所有信号中断的时间和线路定位,为最终排查出是同步系统问题提供了有力的技术支持。

4.3 SNMP支持

一些设备不支持安装程序,不能直接部署监控程序,但支持SNMP协议,扩大监控范围。本台主二级存储出现了罕见的日志系统故障,无法通过管理界面查看系统状态,设备处于无监管运行状态。但是,SNMP模块工作正常,仍能主动推送TRAP信息,使得Zabbix系统及时获取到紧接着出现的节点内存故障,增加运维手段和保证设备维护的及时性。

4.4光传输监控

播控会将传给有线的PGM信号由电转成光,需要通过电光转换模块。但对端输出总是不稳定,出现同一模块部分端口异常的情况,因处于监控盲区而缺乏监管。考察网络条件和设备条件,新增Proxy从光传输机箱采集光模块参数并告警,实现播控系统全域监控。

05

展望

Zabbix功能丰富,且十分灵活,帮助收集大量数据和进行初步筛选。自动告警大大减轻了人员巡视工作量并提高了及时性,丰富了运维手段,大量数据统计为创新应用提供支持。

下一步应用实践,是将环境监控系统接入Zabbix。该系统独立组建,没有通用接口,需要一些协议转换手段才能获取数据。用好Zabbix,用好大数据,有利于播控系统运维工作的效率提升。

0 人点赞