一件运维小事的祸根

2020-06-12 18:15:30 浏览数 (1)

这是学习笔记的第 2238篇文章

读完需要

9

分钟

速读仅需7分钟

今天处理了一个PostgreSQL的复制异常问题,但是限于时间和精力情况,尝试了个把小时,就直接重做了从库,问题迎刃而解,看似是一件小事,其实这是一个祸根。

为什么这么说呢,因为这从侧面反映出几个问题:

1)这是一套运行了一段时间的环境,在技术兜底方面还需要进一步加强

2)基本定位到了问题源头,但是修复时不够有耐心

3)没有找到问题的解决方法,下次碰到这类问题肯定还会走一些弯路

4)这种工作模式简单粗暴,没有技术成长

对于问题的处理模式,我觉得我们需要沉淀出一些方法论。

1)在碰到这类问题时,如果可能对业务产生影响,那么第一要务就是快速恢复业务。

2)对于未知问题的处理方式,最好有预案,尽可能在纸上写写画画,形成一些流程,以免踏入问题的未知地带,导致不可控的结果

3)问题处理要快准,快速的处理问题,可能会取舍,规避掉一些其他的问题,那么我们势必需要在处理之前保留一些必要的日志,尽可能收集一些有效的信息,先保留下来。

4)问题解决之后,需要开始静下心来分析这个问题更深层面的原因,最后的原因往往是相对简单的,这算是问题背后的问题。

5)通过这些问题的表面现象,比如不规范不合理现象来反向推动规避后续的问题。

6)形成问题处理的知识集,这种问题处理的思路留给你的才是真正的财富。

7)定期进行信息梳理,提炼,进一步分类,逐步形成自己分析问题的方法论。

8)通过小组分享,团队分享将这些内容分享出来,获取其他的补充或者校正。

重复这样的处理过程,我觉得从态度上你是对问题紧追不舍,不放弃不退让。从技术上形成了独有的技术知识体系,这是更加生动的案例知识集,而非呆板的教条。

0 人点赞