一、TDMQ健康检查内容
TDMQ是一个发布-订阅模型的消息系统,由 Broker、Apache BookKeeper、Producer、Consumer 等组件组成。
TDMQ的监控检查包含:broker,BookKeeper、客户侧健康检查3部分。
二、TDMQ监控检测项
登录腾讯云TDMQ控制台,查看实例健康检测状态。
如果健康检查显示异常,可以通过进入控制台相关监控,进一步查看。
1、TDMQ集群数据检查
通过巡检可以看到集群消息平均大小,生产速率均值,消费速率均值,生产消息条数,累积存储消耗等。
1、如果消息平均大小太大,可以对消息进行拆分和压缩,减少消息大小。
2、如果是生产速率/带宽出现异常,先排查下客户端是否有阻塞,是否异常,如果客户端未发现,反馈给服务端一起看。
3、如果是消费速率/带宽出现异常,先排查下客户端是否有阻塞,是否异常,如果客户端未发现,反馈给服务端一起看。
4、如果topic、订阅者数量超限,可以先删除过期或者不需要的,然后提单让后端调整下。
2、集群配置检查:
1、如果磁盘使用率打满,需要执行删除过期消息,获取测试topic,并且去控制台进行直接升级。
2、磁盘IO、连接数打满,可能是量级比较大,先做适当的限流,并且对集群进行升级。
3、如果指标超限了需要进行升级,或者提单给服务端进行处理。
三、客户侧健康检查:
客户侧生产和消费主要依赖客户侧应用自身检查,做好客户侧的限流与降级。