云最难的,就是如何运维了,如何监控指标、告警、报表等信息并提前预判异常?出了故障能第一时间找到根因、路径吗?过程可视化吗?故此,小编找到我们 TCE 的运维产品经理,大家群策群力,倾情打造运维产品力专题,从价值视角,分享运维对云的贡献。
运维平台作为 TCE 平台能力,聚焦于帮助客户更好地管理和运维 TCE。运维平台提供了机房、网络、服务器、系统、云产品管理等一站式解决方案,支持数据中心快速扩展及多数据中心容灾演练、故障快速切换,支持云产品自动化部署与动态扩容,并提供监控告警、故障排查定位及故障恢复等能力。
运维平台是一系列运维组件组成的有机整体,每个组件完成特定运维功能。各组件之间通过 CMDB 共享配置信息,通过接口实现运维联动。
名称 | 描述 |
---|---|
CMDB | 提供灵活的业务模型、配置模型、业务系统拓扑视图等一系列功能,统一管理云资源及业务应用资源 |
DCOS | 提供操作系统自动安装、带外管理、硬件监控等物理服务器管理功能 |
NMS | 提供网络设备信息采集、网络设备配置管理告警管理、IP 管理、IDC 管理等物理网络管理及监控功能 |
云哨系统 | 实时监测 TCE 运行状态、运行情况和资源消耗指标,提供告警通知、联动等立体化监控运维能力 |
日志平台 | 提供日志统一存储、实时检索、查询和分析、监控告警的能力 |
巡检平台 | 提供自动化的巡检能力和巡检报告能力,并针对报告中的问题提供修复和优化建议 |
故障演练平台 | 基于混沌工程方法论,通过注入各种模拟的异常来验证业务系统的稳定性 |
容灾管理系统 | 容灾管理系统是容灾演练和故障切换平台,提供系统容灾状态监控能力、容灾演练能力和一键式容灾切换能力 |
云拨测 | 通过从拨测点发送模拟真实用户访问的探测请求实现站点网络监控能力 |
报表系统 | 一站式数据报表管理系统,天然集成云产品数据,提供自定义报表格式配置、报表模板管理、报表生成、报表订阅等能力 |
资源概览 | 提供 TCE 平台资源、计算资源和存储资源使用情况展示 |
包管理 | 提供安装包版本等管理功能 |
作业工具 | 提供自动化运维脚本分发执行管理能力 |
密码库 | 管理 TCE 平台主机系统密码生命周期,提供密码自动修改等管理能力 |
软件源管理 | 提供 yum 源、apt 源等软件源管理能力 |
NTP 管理 | 为 TCE 平台时钟源提供管理、监控功能,保证平台各节点时钟的一致性 |
运维平台不仅提供全方位的运维产品能力,而且结合腾讯云丰富的云产品运维经验,在用户运维 TCE 过程中提供最佳实践建议。通过预设数据等能力,帮助用户快速掌握运维及监控核心要点,实现运维平台能力的开箱即用。
感谢本期赵趁抛砖引玉,期待第一期 CMDB 正式开讲!
-【END】-