运维平台第4期:数据掘金者

2022-06-24 17:40:21 浏览数 (2)

在上一期《诊断专家》中,主要介绍的是和监控系统相辅相成的巡检平台,本期给大家带来的是日志平台。和传统的日志相比,腾讯专有云团队所使用的日志平台又会有哪些不同之处呢?

■ 传统上我们通常会使用 GREP、SED、AWK 等 Linux 命令来实现日志的检索和统计,但是在更高要求的日志搜索分析场景下,由于日志被分散的储存在各台服务器上,难以做关联分析,日志统计和检索的难度加大,传统方式显得效率低下。

■ 此外,持续留存的日志对机器磁盘产生消耗,为了避免日志激增对存储产生压力,通常对日志数据设置清理周期,一段时间后将日志彻删除,而行业监管要求企业的日志存放必须达到特定时间长度。

■ 为解决这些问题,有的企业尝试使用开源的 ELK ,但自建 ELK 需要投入大量的运维团队来做维护升级,并且需要解决 ELK 性能及稳定性等问题。

腾讯专有云团队在面对这些挑战时,是如何解决的?

腾讯专有云日志平台通过日志的采、存、用三个环节,实现了日志全生命周期管理。统一采集、存储支撑专有云运行的管控面日志,提供搜索、可视化分析、事件告警、报表等功能。通过与平台监控系统联动,帮助用户提升运维能力,降低安全风险。

日志平台预接入了专有云平台及各产品管控面的关键日志,系统运维人员无须配置即可开始快速使用,助力平台高效运维。

平台日志功能架构

它有哪些功能?

日志搜索

日志搜索支持通过 CMDB 产品结构树对产品组件筛选、支持通过时间等维度筛选来查询日志数据,实时日志滚动功能帮助用户快速排查问题,搜索保存功能可以让用户把常用的搜索语句持久化保存到已存搜索列表,在下一次查询时直接在已存搜索列表中点击已存搜索就进行快速查询,还有智能语法输入提示的功能,旨在为用户提升查询效率与体验。

可视化分析

提供用丰富的可视化统计分析图表进行展示,包括:折线图、饼图、柱状图、数据表,用户也可以使用丰富的图表样式设置来调整颜色与样式,满足各类展示的需要。通过分析进一步洞悉系统风险,提升对系统问题的发现识别,为后续运维改进提供决策依据。

例如,针对 Nginx 访问日志中的状态码查询获得结果后,切换至可视化中配置统计 status 字段,设置展示方式为饼图,则可以看到该 Nginx 访问日志在某时段内的状态分布情况。

生成报表

配置好的可视化图表支持添加保存到仪表盘,这样用户即可持久化保存图表,在仪表盘中实时查看最近的数据情况。如需数据分享,可以生成报表发送给邮件接收人,方便整个团队快速获取统计信息,时刻掌握平台运行状况。

事件编排

日志平台的事件中心支持通过界面化的方式对日志中关键字、关键值进行事件策略编排,并将编排好的事件策略关联告警,被触发的日志事件就会在告警中心产生告警,并向告警接收人发送告警通知,从而保障关键业务运行。

在哪些场景下使用?

场景1:日志集中管理

日志平台收集专有云平台、以及各个接入云产品的管控组件日志,这些组件日常运行时产生的每一条日志,都会被日志采集客户端统一收集,并通过可扩展的存储系统统一持久化存放,满足企业日志统一管理维护。

场景2:运维故障排查

通过日志搜索、分析快速定位故障,在事件中心通过界面化操作对日志中关键字、关键值进行事件策略编排并关联告警,当故障发生时,通过接受日志事件告警第一时间协助用户找到故障。

场景3:运行分析报表

企业需要持续关注整个云平台的运行情况,通过对日志进行统计、并将系统运行关键数据生成可视化报表,让决策者更加直观的掌握平台运行状况。例如对 API 日志、网络访问等日志进行统计分析,可自动生成报表,时刻掌握平台的各项运行状况。

场景4:等保安全审计

企业在过等保或者做审计时,需要收集各种类型的日志,要求日志至少达到180天存储,部分日志需要永久保存,有的日志则要求通过相关国家安全加密。日志平台在采集存储日志时的数据压缩技术能确保对存储空间的有效利用,进一步降低了日志的存储成本。同时支持国密算法加密,助力用户等保审计合规。

它有什么价值?

  • 开箱即用

预接入平台及各产品管控面的日志,不需要系统运维人员配置即可开始快速使用日志平台的各项功能。

  • 提升运维效率

通过日志数据统一采集存储、日志搜索、可视化分析快速故障根源定位,实时监控平台环境运行状态。

  • 降低管理成本

通过自研的日志压缩技术,确保对存储空间的有效利用,进一步降低日志的存储成本。

  • 企业IT合规

将日志数据持久化存储,副本机制存放保障日志数据不丢失。支持国密算法加密,助力用户等保审计合规。

和传统日志相比,我们的优势是?

采集快:体现在写入速度非常快

  • 单进程的采集 平均写入速率 达到: 1.3 万行/秒, 3692070 B/s
  • 写入吞吐 ≈ 30 万行/秒,81550368 B/s

查询速度快:体现在查询速率高、延时低:

  • 关键字查询平均查询速率 140.7 个/秒
  • 模糊查询平均查询速率 186.2 个/秒
  • 相比同类型底层存储查询延时速度快 6 倍

节省空间:体现在数据压缩空间大

  • 35G 数据压缩后仅占用 10.3G 存储空间存放
  • 数据压缩比 VS 业界采用 Elasticsearch 作为存储高6倍

*测试数据日志大小:20G

*行数:94,700,080 (≈9千5百万行)

企业在未来会持续产生越来越多的、海量的日志数据,这些数据将会像一座座金矿,借助腾讯云专有云日志平台更加丰富的能力,为企业释放更多价值,发挥更重大作用。

未来在后续的迭代中,日志平台将会更加完善,规划更多功能,例如智能聚类、链路追踪。同时,易用性也将会持续优化,让用户搜索分析日志更简单。

希望通过日志平台,我们能够和用户一起共同探索挖掘更多日志数据的价值。

感谢本期作者倪开给我们带来的精彩解说,喜欢的朋友们可以点一下关注,咱们下期见~

-【END】-

没看够?下面还有!

往期 · 推荐

‍‍‍‍‍‍‍运维专题第1期:数据中枢

运维专题第2期:警戒哨兵

运维专题第3期:诊断专家‍‍‍‍‍‍

一朵云,搞掂!

0 人点赞