踩坑 | starrock节点不稳定问题

2023-09-06 13:17:47 浏览数 (1)

27

2023-08

踩坑 | starrock节点不稳定问题

如题,分享一下最近新遇到的节点不稳定问题~

LEARN MORE

图片由海艺AI绘制

这是我近期遇到的最离谱的问题,没有之一。

因为公司的东西不方面截图嘛,就简单描述一下,有一个direct query直连starrock的看板,突然报错了。有一个图表无法加载,powerbi给出的报错信息是没有数据访问权限,请联系数据集所有者。

作为数据集所有者,看到报错权限问题,我的第一反应是是网关挂了。然而一顿排查之后,发现网关运作正常,直接去starrock中查数,数据也非常正常。

于是我想到可能是问题的调查方向有问题了。如果网关有问题,为什么整个面板中只有这一个视觉对象出问题了,其他的视觉对象都是正常加载的?报权限问题不应该是所有的视觉对象都有问题么?这个问题肯定不是权限问题导致的。

于是就开始了一波逆向查,最后发现有一个字段是报错没有权限的,其他字段都是正常的。这个图表报错是因为只有这个图表用到了这个字段,其他图表并没有用到这个字段。

离谱,真的离谱,离大谱,一个表里就一个字段访问不了,其他字段都是正常的。

总之,这个问题显然不是power bi的问题,那么就甩锅大法好,直接甩锅给starrock进行排查。排查的结果最后还是没有结果,定性为节点不稳定,切换一个节点就好了。

为此被迫学习了一下starrock节点不稳定的原因:

硬件故障:

节点的硬件设备(如磁盘、内存、CPU等)可能出现故障,导致节点不稳定。这可能是由于硬件老化、过载或其他问题引起的。

网络问题:

节点之间的网络连接可能不稳定或延迟过高,导致节点之间的通信出现问题。这可能会导致数据同步延迟、请求超时等问题。

配置不当:节点的配置参数可能不正确或不适合当前的工作负载,导致节点不稳定。例如,内存分配不足、线程池配置不合理等。

资源竞争:

如果节点上运行的作业或查询过多,可能会导致资源竞争,使节点不稳定。这可能是由于过多的并发查询、大量的写入操作等引起的。

Bug或代码问题:

StarRocks的代码可能存在错误或缺陷,导致节点不稳定。这可能是由于内存泄漏、死锁、并发问题等引起的。

处理方案也顺手看了一下:

检查日志:查看 Starrocks 节点的日志文件,通常位于日志目录下,例如 /var/log/starrocks/。检查日志可以帮助你找到具体的错误信息,从而解决问题。

检查硬件资源:确保 Starrocks 节点的硬件资源(CPU、内存、磁盘空间等)充足,以避免因资源不足导致的不稳定性。

检查网络连接:确保 Starrocks 节点与其他节点之间的网络连接正常。可以使用 ping 命令或其他网络工具来测试网络连通性。

重启节点:尝试重启不稳定的 Starrocks 节点,有时候重启可以解决临时的问题。

升级软件版本:如果你正在使用较旧的 Starrocks 版本,尝试升级到最新的稳定版本,以获取更好的性能和稳定性。

检查配置文件:检查 Starrocks 节点的配置文件,确保配置正确,没有错误或冲突的配置项。

优化查询性能:如果 Starrocks 节点在处理大量查询时变得不稳定,可以尝试优化查询性能,例如通过添加索引、调整查询计划等方式。

0 人点赞