导语
腾讯云云监控于近日发布了两款产品:应用性能观测(APM)、前端性能监控(RUM),帮助用户解决调用链追踪问题,减少 MTTR(平均修复时间),以及帮助提升用户在 Web、小程序端的使用体验。
APM 集成微服务团队丰富的业务场景沉淀以及云监控打磨多年的高性能数据处理中台,云监控 - 应用性能观测平台(APM)正式开放测试。如果您的团队还在苦于日益复杂的后台服务架构、日渐增长的故障排查时间,我们诚邀您试用云监控 APM ,开启一体化、自动化的后台服务监控体验。
点击文末"阅读原文" 立即申请体验APM。
APM 产品概述
应用性能监控是一款后台服务性能管理平台,基于主流 OpenTelemetry 开源协议,支持多种主流框架和编程语言。能为您的团队提供包括自动发现全局服务依赖拓扑、调用链追踪、多维性能分析在内的多种应用性能监测手段和管理服务,全方位保障系统的可用性与性能表现,帮助您有效地降低 MTTR(平均修复时间)、提升开发运维效率、改善用户体验。
为什么需要 Tracing?
随着用户和业务量的日益增长,互联网应用的服务架构也在不断升级。从逻辑复杂的大型单体服务到简单模块化的微服务,每个后台应用搭载的业务逻辑逐步简化,但整个分布式后台的系统结构却变得更加复杂。不同模块由独立的团队开发运营,依赖不同语言实现,为运维、故障排查和性能优化都带来了新的挑战。
01
定位难
调用关系复杂,难以快速定位性能瓶颈。
痛点
- 发现某个接口响应时间突然增加,运维或开发人员只能对着技术架构文档或者代码,逐个分析处理路径上各个依赖接口的耗时、性能、故障情况,效率低下。
- 迎接大促,准备扩容,需要根据代码和业务逻辑,找到所有依赖的系统和组件,梳理发现性能短板的服务,定位慢。
解决方案
- 基于系统间实际调用请求,自动绘制系统拓扑,帮您迅速理清服务间复杂的依赖关系。
- 对各服务、接口、实例的级别的吞吐量、耗时以及错误率监控,帮您快速定位瓶颈组件或服务。
- 服务监控大盘主动统计慢调用、慢 SQL 执行以及异常类型,帮您聚焦瓶颈服务的核心问题。
02
排查难
日志数据繁杂,难以快速聚焦故障代码。
痛点
- 客服团队反馈一个订单异常,由于请求处理路径较长,涉及到的应用分别由不同团队开发维护, 日志格式和存储都相对独立,往往需要联合各个团队一起排查异常原因,定位效率低下,耗时长。
解决方案
- 基于 Opentracing 协议,统一不同语言和框架的核心数据收集,您无需深入修改业务代码,即可获取整个请求处理链路上各个组件 / 服务的核心请求参数、耗时、异常、数据库查询语句等信息,一站式定位异常。
03
监控难
指标、日志、链路分离,难以实现一站式监控。
痛点
- 服务因为错误率过高,指标监控触发告警,但是没有和日志或者请求链路关联,无法立刻定位到造成错误率提高的典型请求和相关日志。需要从日志中回溯到指标异常时间范围内搜索,筛选出异常,统计归因。
解决方案
- 从指标告警可以直接下钻到对应时间段、特定服务 / 接口的指标变化趋势;同时单击趋势曲线上的任意数据点,即可查看相应时间的典型请求以及所在链路信息。在几次点击内,您就可以完成从指标到具体异常请求的定位。
- 当您发现某个指标曲线有异常趋势,也可以从图表一键配置告警,以主动监控对应指标未来的变化情况,防患于未然。
腾讯云 APM 功能特性
01
调用链路追踪
多维链路查询
支持按照途径接口,响应时间,采样时间,是否包含错误异常,是否耗时过长等维度对调用链路进行过滤筛选。可以进一步帮助用户定位到包含特定异常信息,数据库查询的链路,帮助用户从海量链路数据中聚焦到重点链路,快速定位异常链路,完成故障排查。
一站式调用链分析
微服务架构下,链路追踪可以跨越服务,云监控 APM 帮助用户自动构建每次请求的完整路径。同时收集从请求参数,事务数据,错误信息到堆异常栈,JVM 信息,实现一站式全链路问题分析,提高定位问题的效率。解决了日志分散,格式不规范,不易聚焦,上下游服务日志难以关联等故障排查痛点。
02
应用性能监控
应用依赖拓扑自动发现
依托分布式调用链追踪的模型,自动发现应用逻辑拓扑,以应用为基本单元,绘制全局拓扑关系。可视化的展示繁杂应用间依赖关系,实时数据钻取,智能应用状态分析迅速定位影响业务的关键 / 瓶颈应用,组件。同时,应用维度的上下游依赖关系,清晰展示上游负载、下游影响,结合上下游环境,全面分析应用健康状况和性能指标。
系统拓扑图
服务概览图
TOPN 接口分析
覆盖应用监控三大黄金指标基础上,增加 Apdex 指标科学评估用户满意度。继承云监控丰富可视化报表经验沉淀,支持用户灵活切换环比标尺线,准确判断应用动态和变化趋势。同时智能监测 TOP5 耗时和 TOP5 错误率接口,及时主动上浮问题,加速用户聚焦过程,实现应用性能的精准监控。
TOPN 接口图
多维分析
主动按照接口、异常、调用角色、数据库调用等维度聚合性能和异常指标,帮助您一键定位慢接口、慢 SQL 以及高频异常,配合一键下钻到相关链路的功能,大幅降低异常发现到解决的时间,优化 MTTR。
接口分析
异常分析
SQL 分析
闭环监控能力
集成日志、指标、链路、告警,应用监控完整闭环,从事故前异常发现、事故中故障排查到事故后的主动预警监控,为您持续监控、优化服务性能提供一个一体化平台。
03
开箱即用和高兼容性
- 无侵入式探针,在不触动业务逻辑的前提下,‘零配置’获得开箱即用的应用监控能力;
- 支持 OpenTracing 协议,兼容 Skywalking, Jaeger 和 Zipkin,高适配性帮助您 “零成本” 迁移;
- 支持 Java, Go, PHP,C 覆盖主流开发语言,后续会逐步开放对其他语言的支持。
如果您有任何疑问,欢迎添加云监控团队微信号,
回复 APM,进入专属用户群。