【最佳实践】巡检项:TDMQ健康检查

2022-04-01 21:42:13 浏览数 (1)

一、TDMQ健康检查内容

TDMQ是一个发布-订阅模型的消息系统,由 Broker、Apache BookKeeper、Producer、Consumer 等组件组成。

TDMQ的监控检查包含:broker,BookKeeper、客户侧健康检查3部分。

二、TDMQ监控检测项

登录腾讯云TDMQ控制台,查看实例健康检测状态。

控制台健康检测控制台健康检测

如果健康检查显示异常,可以通过进入控制台相关监控,进一步查看。

1、TDMQ集群数据检查

集群数据监控信息集群数据监控信息

通过巡检可以看到集群消息平均大小,生产速率均值,消费速率均值,生产消息条数,累积存储消耗等。

1、如果消息平均大小太大,可以对消息进行拆分和压缩,减少消息大小。

2、如果是生产速率/带宽出现异常,先排查下客户端是否有阻塞,是否异常,如果客户端未发现,反馈给服务端一起看。

3、如果是消费速率/带宽出现异常,先排查下客户端是否有阻塞,是否异常,如果客户端未发现,反馈给服务端一起看。

4、如果topic、订阅者数量超限,可以先删除过期或者不需要的,然后提单让后端调整下。

2、集群配置检查:

查看集群配置查看集群配置

1、如果磁盘使用率打满,需要执行删除过期消息,获取测试topic,并且去控制台进行直接升级。

2、磁盘IO、连接数打满,可能是量级比较大,先做适当的限流,并且对集群进行升级。

3、如果指标超限了需要进行升级,或者提单给服务端进行处理。

三、客户侧健康检查:

客户侧生产和消费主要依赖客户侧应用自身检查,做好客户侧的限流与降级。

0 人点赞