Elasticsearch 集群写入拒绝率突然飙升

2022-11-28 16:51:10 浏览数 (1)

一、前言

  • 问题一: 客户突然反馈,集群写入拒绝飙升,需要紧急处理,云控制台截图如下:
控制台写入拒绝指标控制台写入拒绝指标
  • 问题二:logstash写不进数据,客户着急处理
logstash报错logstash报错

二、分析步骤

  • 问题一-处理步骤:

一般出现拒绝,我们第一时间就要看日志,结合日志,我们发现很多如下type错误:

日志type错误日志type错误

再看一下监控,没其他业务毛刺问题,同时,客户write thread_pool 持续打满堆积

thread_pool write写队列打满thread_pool write写队列打满
  • 问题2-处理步骤 同样是查看日志
字段超限字段超限

字段超限导致的数据写入异常,影响其他数据写入。调整字段限制参数后,数据写入即正常。

写入恢复正常写入恢复正常

三、问题原因

结合两个问题现象,这里大致可以断定,是客户mapping中出现了type导致索引数据写不进,出现的错误又持续堆积,把节点的写队列打满,影响了集群整体业务的写入。

代码语言:javascript复制
Rejecting mapping update to [cover] as the final mapping would have more than 1 type: [*, cover_type

问题原因:这种type错误占用了多余的队列,引起了拒绝,导致正常的索引写入也受影响。

四、解决办法

1, 直接删除掉这个cover这个索引

2,另外用户之前建了个模板, type是*,他这边一直要给cover建一个cover_type,让用户把模板删掉了,让他先建,自动映射其他用户的cover_type,这样就没有这个错误日志了。

再观察10分钟,这个拒绝率就下来了。

写入拒绝写入拒绝

就这样,比较顺利的解决了客户的问题。与其他操作没有关系。

0 人点赞