27
2023-08
踩坑 | starrock节点不稳定问题
如题,分享一下最近新遇到的节点不稳定问题~
LEARN MORE
图片由海艺AI绘制
这是我近期遇到的最离谱的问题,没有之一。
因为公司的东西不方面截图嘛,就简单描述一下,有一个direct query直连starrock的看板,突然报错了。有一个图表无法加载,powerbi给出的报错信息是没有数据访问权限,请联系数据集所有者。
作为数据集所有者,看到报错权限问题,我的第一反应是是网关挂了。然而一顿排查之后,发现网关运作正常,直接去starrock中查数,数据也非常正常。
于是我想到可能是问题的调查方向有问题了。如果网关有问题,为什么整个面板中只有这一个视觉对象出问题了,其他的视觉对象都是正常加载的?报权限问题不应该是所有的视觉对象都有问题么?这个问题肯定不是权限问题导致的。
于是就开始了一波逆向查,最后发现有一个字段是报错没有权限的,其他字段都是正常的。这个图表报错是因为只有这个图表用到了这个字段,其他图表并没有用到这个字段。
离谱,真的离谱,离大谱,一个表里就一个字段访问不了,其他字段都是正常的。
总之,这个问题显然不是power bi的问题,那么就甩锅大法好,直接甩锅给starrock进行排查。排查的结果最后还是没有结果,定性为节点不稳定,切换一个节点就好了。
为此被迫学习了一下starrock节点不稳定的原因:
硬件故障:
节点的硬件设备(如磁盘、内存、CPU等)可能出现故障,导致节点不稳定。这可能是由于硬件老化、过载或其他问题引起的。
网络问题:
节点之间的网络连接可能不稳定或延迟过高,导致节点之间的通信出现问题。这可能会导致数据同步延迟、请求超时等问题。
配置不当:节点的配置参数可能不正确或不适合当前的工作负载,导致节点不稳定。例如,内存分配不足、线程池配置不合理等。
资源竞争:
如果节点上运行的作业或查询过多,可能会导致资源竞争,使节点不稳定。这可能是由于过多的并发查询、大量的写入操作等引起的。
Bug或代码问题:
StarRocks的代码可能存在错误或缺陷,导致节点不稳定。这可能是由于内存泄漏、死锁、并发问题等引起的。
处理方案也顺手看了一下:
检查日志:查看 Starrocks 节点的日志文件,通常位于日志目录下,例如 /var/log/starrocks/。检查日志可以帮助你找到具体的错误信息,从而解决问题。
检查硬件资源:确保 Starrocks 节点的硬件资源(CPU、内存、磁盘空间等)充足,以避免因资源不足导致的不稳定性。
检查网络连接:确保 Starrocks 节点与其他节点之间的网络连接正常。可以使用 ping 命令或其他网络工具来测试网络连通性。
重启节点:尝试重启不稳定的 Starrocks 节点,有时候重启可以解决临时的问题。
升级软件版本:如果你正在使用较旧的 Starrocks 版本,尝试升级到最新的稳定版本,以获取更好的性能和稳定性。
检查配置文件:检查 Starrocks 节点的配置文件,确保配置正确,没有错误或冲突的配置项。
优化查询性能:如果 Starrocks 节点在处理大量查询时变得不稳定,可以尝试优化查询性能,例如通过添加索引、调整查询计划等方式。