日志易基于可观察性的一些Q&A
Q:Skywalking已经有界面了,为什么要使用观察易呢?
A:两者关注的重点不同。
Skywalking是开源的分布式应用性能监控产品,用于收集、分析、聚合、可视化来自不同服务和本地基础服务的数据,具备链路追踪和APM的能力,更像一个现代的性能管理系统。它功能丰富,具备对Tracing以及Metric的管理能力、性能分析能力,其关注的重点只是“可观察性”,但是从日志、运维监控以及扩展性方面来看,存在一些不足。
观察易是日志易基于自研高性能数据搜索分析引擎Beaver和低代码编程语言SPL(Search Processing Language)自主研发的针对单体应用架构、分布式应用架构的可观察性平台,用于收集、分析、聚合、可视化来自于各类应用运维数据,具备链路追踪、性能分析、日志关联、指标探索以及扩展化运维场景的定制能力。它功能强大,具备对Tracing、Metric以及Logging的统一管理以及关联分析等,无论从应用的观测、监控还是运维排障方面来看,皆具备较强的能力,观察易关注的重点是“可观察性、监控能力以及故障排查效率”。
Q:使用观察易,需要根据观察易的格式来修改日志格式么?
A:大部分是不需要修改日志格式的。
日志易分析了数家企业的链路追踪日志(包括Zipkin、Jaeger和一些银行链路)构建出观察易数据模型,用户只需要接入链路日志,然后在数据工厂进行重命名和聚合等操作,即可完成数据接入。
我们推荐使用数据工厂进行数据接入,一是因为数据工厂支持很多span相关的算子,能够帮助用户梳理链路;二是数据工厂可以实现大数据量的实时处理,以便快速进行聚合得出指标。
Q:某个时段内统计性的链路概况是如何梳理的呢?
A:在实际的运维工作中,通常我们是看一段时间内的系统概况,是由粗到细来观察。通过数据工厂对链路进行梳理,聚合生成指标(聚合窗口是1分钟),这些时序数据分析结果会自动存入索引,用于后续的可视化和分析流程。
Q:使用观察易进行链路分析是否对日志有特殊要求,比如全局流水号之类的?
A:链路分析是需要日志满足一定要求的。
以现有客户反馈来看,银行的链路追踪较为复杂,日志易的数据工厂能够提供多种算子,帮助梳理链路关系,包括全局流水号、指纹等,具体要求仍需视实际部署而定。
Q:集群节点或微服务节点,在聚合时的呈现状态是怎样的?展示能细化到哪一层面呢?
A:可以细化到节点级别。
集群或微服务往往都是分布部署的,用户需要观察一段时间内分布部署的服务与所承载业务的聚合关系。观察易拓扑图显示3层,每层展示的颗粒度,都是可配置的。例如,第一层是业务系统,第二层是各模块集群,第三层就是模块节点,可以设置层次,不断放大。
Q:日志需要埋点改造才能追踪链路么?
A:观察易只接收客户输出的追踪日志,客户可以根据需要选择使用某一种方式生成链路追踪,比如使用插码、旁路镜像抓包、开源工具等,都可以实现对接。
Q:观察易中系统的健康度是如何计算出来的呢?
A:观察易将请求量、错误数、延迟等数个黄金指标作为参数,基于机器学习算法计算得出健康度。
Q:如果已经确定某个微服务异常导致故障,故障发生前15分钟内的相关日志是否可提取并深度钻取呢?
A:这是观察易很基础的功能,可以实现。
在故障发生的时候,如果已经确定某个微服务异常,业务这边可能提供了关键字如error、exception等,观察易能够把这些相关信息快速提取出来展示,并以此关键信息去钻取当前异常的上下文。
不需要客户手动去单独搜索。假如不确定是哪个微服务导致故障,或者涉及多个微服务时,观察易同样可以实现相关信息的快速提取展示,并以此关键信息去钻取当前异常的上下文,且能够以节点变色等方式实时提示异常情况,链路绘制清晰明确,充分实现系统可观察性。
Q:观察易是自研的么?如果发现有故障,是否有对应的处置功能?还是有对应的告警机制,再由运维人员或研发人员进行处理呢?
A:观察易是日志易基于自研高性能数据搜索分析引擎Beaver和低代码编程语言SPL(Search Processing Language)自主研发的可观察性平台。
观察易接收链路追踪日志,不产生trace,可以直接对接Zipkin、Jaeger、Skywalking。观察易搭配日志易的告警和事件处理功能,有运维或研发人员进行监控和处理。
Q:观察易是否可以作为日志易平台搭配的一个模块,也可以单独部署么?
A:观察易平台可以单独部署,也可以搭配已有的日志易平台来实现IT可观察。