一、前言
- 问题一: 客户突然反馈,集群写入拒绝飙升,需要紧急处理,云控制台截图如下:
- 问题二:logstash写不进数据,客户着急处理
二、分析步骤
- 问题一-处理步骤:
一般出现拒绝,我们第一时间就要看日志,结合日志,我们发现很多如下type错误:
再看一下监控,没其他业务毛刺问题,同时,客户write thread_pool 持续打满堆积
- 问题2-处理步骤 同样是查看日志
字段超限导致的数据写入异常,影响其他数据写入。调整字段限制参数后,数据写入即正常。
三、问题原因
结合两个问题现象,这里大致可以断定,是客户mapping中出现了type导致索引数据写不进,出现的错误又持续堆积,把节点的写队列打满,影响了集群整体业务的写入。
代码语言:javascript复制Rejecting mapping update to [cover] as the final mapping would have more than 1 type: [*, cover_type
问题原因:这种type错误占用了多余的队列,引起了拒绝,导致正常的索引写入也受影响。
四、解决办法
1, 直接删除掉这个cover这个索引
2,另外用户之前建了个模板, type是*,他这边一直要给cover建一个cover_type,让用户把模板删掉了,让他先建,自动映射其他用户的cover_type,这样就没有这个错误日志了。
再观察10分钟,这个拒绝率就下来了。
就这样,比较顺利的解决了客户的问题。与其他操作没有关系。