记一次腾讯云ES集群缩容降配的全过程

2022-08-06 19:13:17 浏览数 (1)

一、客户需求:

某外部大客户购买了腾讯云ES集群,因自身资源评估,需要进行集群降配。该集群包含数据节点、专用主节点,都需要进行缩容。

二、缩容前提:

因为集群缩容是有一定安全风险的,因此,在进行集群缩容前,我们需要对用户腾讯云控制台登录主账号<主UIN>进行开白

<包含内外部用户>;

缩容除了要开白以外,还需要一些特定的服务器要求,检查ES服务器状态是否正常。

不能缩容超过一半规格,比如从16核64G降低到8核32G以下的规格是不允许的!!!!

三、缩容原则:

先往集群中添加需要缩容的等额的新的节点,然后再将原始数据搬迁到新的节点上,然后再下掉原先的节点,这样来完成缩容。无论是缩节点配置,还是缩磁盘都遵循该逻辑。

四、缩容过程:

第一步,确定用户集群缩容的完整信息,信息如下:

代码语言:javascript复制
主UIN:XXXXXXX
地域: 北京四区
资源需求:
主节点     2c8G       //这些是要准备的降级的新资源
数据节点   4c16G
磁盘       SSD 5000G   

第二步: 进一步确定集群降配的资源是否充足,包括CVM、CBS资源的判定。

代码语言:javascript复制
这个需要平台服务人员根据各链接信息提供精准的判断。

通过判断,我们确定该区域 CVM资源充足,但是CBS磁盘资源不够,于是需要协调cbs侧同学开白放开部分资源限制。

第三步:以上操作完成后,通知用户控制台进行集群变配操作,结果如下,无法选择变配资源:

无法选择变配资源无法选择变配资源

数据节点不显示售罄了,但是仍然无法降配。

同时,客户对主节点也进行了相应的操作,同样报错

缩容主节点缩容主节点

问题进展到这里,引导客户 在报错界面按"F12", 选择"network",调取一下报错接口返回的requestID

提取RequestID提取RequestID

根据对应的requestID,我们看到以下日志信息,“UnsupportOpeation”,

大概是说,不支持该降配操作。难道是之前的主UIN没开白生效成功,再次确认,果然问题出在这里。没开白成功。再次操作后,通知用户再次操作缩容。再次报错,报错如下:

缩容失败缩容失败

但是这次缩容报错跟之前不一样了,再次让用户调取requestID ,再次分析原因,如下:

分析是该用户的集群磁盘使用率过高,缩容前的安全检查没通过。故而报错。于是通知用户清理集群空间后让用户再次操作。

清理完磁盘后,让用户再次控制台操作缩容,流程正常执行,数据节点缩容成功。

第四步: 缩容主节点,再次报错

继续调取RequestID ,继续进行缩容失败原因分析,如下:

大概的意思是不能一次缩容超过一半的配置。

客户的主节点配置原来是8c16G ,他要降到2C8G,不能一次降超过原有节点的一半配置,因此,需要先降级到4C16G,然后再降级到2C8G。那么这样,主节点也终于缩容成功,流程至此闭环,问题解决。

五、总结

这次缩容的过程比较久,问题出现的比较多。因此,特地花点时间梳理整个过程,希望能帮助到有需要的同学们。

0 人点赞