一、客户需求:
某外部大客户购买了腾讯云ES集群,因自身资源评估,需要进行集群降配。该集群包含数据节点、专用主节点,都需要进行缩容。
二、缩容前提:
因为集群缩容是有一定安全风险的,因此,在进行集群缩容前,我们需要对用户腾讯云控制台登录主账号<主UIN>进行开白
<包含内外部用户>;
缩容除了要开白以外,还需要一些特定的服务器要求,检查ES服务器状态是否正常。
不能缩容超过一半规格,比如从16核64G降低到8核32G以下的规格是不允许的!!!!
三、缩容原则:
先往集群中添加需要缩容的等额的新的节点,然后再将原始数据搬迁到新的节点上,然后再下掉原先的节点,这样来完成缩容。无论是缩节点配置,还是缩磁盘都遵循该逻辑。
四、缩容过程:
第一步,确定用户集群缩容的完整信息,信息如下:
代码语言:javascript复制主UIN:XXXXXXX
地域: 北京四区
资源需求:
主节点 2c8G //这些是要准备的降级的新资源
数据节点 4c16G
磁盘 SSD 5000G
第二步: 进一步确定集群降配的资源是否充足,包括CVM、CBS资源的判定。
代码语言:javascript复制这个需要平台服务人员根据各链接信息提供精准的判断。
通过判断,我们确定该区域 CVM资源充足,但是CBS磁盘资源不够,于是需要协调cbs侧同学开白放开部分资源限制。
第三步:以上操作完成后,通知用户控制台进行集群变配操作,结果如下,无法选择变配资源:
数据节点不显示售罄了,但是仍然无法降配。
同时,客户对主节点也进行了相应的操作,同样报错
问题进展到这里,引导客户 在报错界面按"F12", 选择"network",调取一下报错接口返回的requestID
根据对应的requestID,我们看到以下日志信息,“UnsupportOpeation”,
大概是说,不支持该降配操作。难道是之前的主UIN没开白生效成功,再次确认,果然问题出在这里。没开白成功。再次操作后,通知用户再次操作缩容。再次报错,报错如下:
但是这次缩容报错跟之前不一样了,再次让用户调取requestID ,再次分析原因,如下:
分析是该用户的集群磁盘使用率过高,缩容前的安全检查没通过。故而报错。于是通知用户清理集群空间后让用户再次操作。
清理完磁盘后,让用户再次控制台操作缩容,流程正常执行,数据节点缩容成功。
第四步: 缩容主节点,再次报错
继续调取RequestID ,继续进行缩容失败原因分析,如下:
大概的意思是不能一次缩容超过一半的配置。
客户的主节点配置原来是8c16G ,他要降到2C8G,不能一次降超过原有节点的一半配置,因此,需要先降级到4C16G,然后再降级到2C8G。那么这样,主节点也终于缩容成功,流程至此闭环,问题解决。
五、总结
这次缩容的过程比较久,问题出现的比较多。因此,特地花点时间梳理整个过程,希望能帮助到有需要的同学们。