TARS服务信息上报|全方位服务监控

2020-12-29 11:37:25 浏览数 (1)

服务上线运营后,出现异常是难免的事,通常情况下会通过服务日志排查问题。然而这种排查问题的方式有时候是低效的,特别是日志比较多,还不知道如何下手的时候,非常麻烦。那让服务主动报告出现的错误不就行了吗?本文将对TARS中的几种信息上报方式进行介绍。

  • 简介
  • 状态统计上报
  • 异常上报
  • 属性统计上报
  • 总结

服务出现异常时,特别是生产环境中,我们需要快速定位并解决问题。而日志排查方式又是低效的,特别是在我们对问题还没有头绪的时候。这时如果能够让服务主动报告出现的问题,会很大程度提高排查问题的效率。

TARS框架中集成了服务信息上报的功能,包含了服务的状态统计上报、异常上报、属性统计上报等三个信息上报统计方式,实现对服务健康程度的多方面监控。这三种信息上报方式分别通过 Stat、Notify、Property 这三个节点实现。如下图:

服务通过向这三个节点报告自身不同维度的信息,实现对服务状态的监控。那么接下来我们来了解这三种信息上报方式吧。

所谓的状态统计上报,就是在 TARS 框架中,服务向 Stat上报自身的调用耗时、超时率、异常率等状态信息并进行统计。

服务调用上报接口后,实际上是先暂存在内存中,当到达某个时间点后才正式上报到 Stat 服务(默认是1分钟上报一次)。我们称两个上报时间点之间的时间为一个统计区间,在一个统计区间相同 key 进行累加、对比等操作。

状态统计上报一般不需用户额外开发,服务在 TARS 框架中正确配置并部署后,即可自动上报。

打开 TarsWeb 的服务管理页面,在具体服务的 服务监控 页面中可以看到对应服务相关的状态信息,包括流量、平均耗时、超时率等,如下图:

服务状态统计上报能够直观地了解服务的状态和健康度。不过实际使用场景中,仅统计一些服务的调用信息是不够的。为了更好监控,TARS 框架支持在服务中将异常直接上报到 Notify,并可以在 TarsWeb 管理页面上查看到,或结合别的告警软件或平台直接通知用户。TARS 不同语言版本中都提供了异常上报方式。本部分将分别基于 TarsCpp 和 TarsGo 举例介绍,其他语言版本类似。

TarsCpp

TarsCpp 中提供了一种异常上报方式,即使用 RemoteNotify::report 来上报异常,用法如下:

参数info为需要上报的异常信息,类型为 string 字符串, 可以直接上报字符串到 Notify,页面可以看到上报的字符串。例如我们创建一个服务名为 Demo.DemoServer.DemoObj 的 TarsCpp 服务,创建命令如下:

项目目录结构如下:

接着在 DemoServer.cpp 的服务初始化函数 DemoServer::initialize 中上报一条信息,这样服务在启动时,就会上报一条 DemoServer Start 的信息,如下:

将服务编译部署后,可以在 TarsWeb 上服务的实时状态中看到服务上报的信息,如下图:

TarsGo

TarsGo 中提供了如下函数来上报异常信息,用法和前面 TarsCpp 的相似。

level指的是异常等级,分为NOTIFY_NORMAL, NOTIFY_WARN, NOTIFY_ERROR,info则为上报的信息。

我们通过以下命令创建一个 TarsGo 服务Demo.NotifyDemo.DemoObj

项目目录结构如下:

同 TarsCpp 相似,我们在demo_imp.cpp的Init中添加异常上报

构建部署该服务后,同样可以在服务实时状态中看到

可见,异常上报是一个主动上报的过程,开发者可以通过异常上报,主动上报服务错误,比如在try...catch捕捉到错误时,进行上报。

除了状态统计上报和异常上报,TARS 中也提供了属性统计的功能,开发者能够上报业务相关属性并进行统计。为了方便业务使用,TARS 目前自带了以下几种统计类型:

  • 求和(sum)
  • 平均(avg)
  • 分布(distr)
  • 最大值(max)
  • 最小值(min)
  • 计数(count)

TarsCpp 中,可以通过 createPropertyReport() 来创建并配置一个属性上报对象,并通过调用该对象的方法 report 来上报属性值。例如,我们想监控一个数组大小的最大值,我们创建一个属性名为 array_size 的属性上报对象,并配置上报方法为 max ,即最大值,可以通过如下步骤实现。

接下来我们以一个 C 实现的简单队列服务为例,该服务包含两个队列操作接口

  • pop:用于弹出队列最前端的数字
  • push:用于添加一个数字到队列中

并对服务中队列的大小进行属性统计上报。

首先,我们新建一个服务名为Demo.PropertyDemo.TestObj的服务,并新建文件 Queue.h,项目结构如下:

在 Queue.h 中实现一个简单的线程安全队列类,实现如下:

可以看到 Queue 继承自 TC_Singleton,TC_Singleton是 TarsCpp 中提供的一个单件类组件,通过继承该类,使 Queue 成为单件类。

修改 Test.tars,我们新增两个接口 pop, push 用于操作服务的队列。如下:

然后在 TestImp.h 中添加接口的声明,如下:

并在 TestImp.cpp 中实现这两个接口,如下:

最后,在 PropertyDemo.cpp 中,添加对队列大小的上报,如下:

在 reportFunc 中,我们创建了一个属性 queuelength 的上报对象reportPtr,添加上述的六种统计策略,并定时上报;然后在 main 函数中创建一个线程来运行 reportFunc。

构建并部署服务后,我们就可以在 TarsWeb 页面服务的特性监控中看到属性的统计值了,如下图:

如果看不到统计信息,可以间隔5分钟,监控信息每5分钟同步一次。

从上图中,可以看到六种统计策略的值,分别是Queue中队列大小的求和、最小值、最大值、分布、计数、平均值。通过调用服务的接口pop和push,即向Queue队列中添加或弹出对象,改变队列大小,这些值也会相应的变化。

本文对 TARS 三种信息上报方式及如何使用进行了介绍。通过这三种服务信息上报方式,开发者能够对服务进行多维度的监控,了解服务和业务实时健康状态、异常信息及业务相关属性,帮助开发者更好地管理服务。

TARS 可以在考虑到易用性和高性能的同时快速构建系统并自动生成代码,帮助开发人员和企业以微服务的方式快速构建自己稳定可靠的分布式应用,从而令开发人员只关注业务逻辑,提高运营效率。多语言、敏捷研发、高可用和高效运营的特性使 TARS 成为企业级产品。


0 人点赞