系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!(内附故障复盘模板)

Posted TakinTalks稳定性社区

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!(内附故障复盘模板)相关的知识,希望对你有一定的参考价值。

# 一分钟精华速览 #

系统故障无法避免,事故发生的原因多种多样,故障定责不是为了指责而是为了后续的优化改进,可很多企业在定责时难免遇到团队、个人之间推卸责任的情况,定责定的到底是什么 “责”?​​TakinTalks​​ 社区的 5 位专家,给出了 6 条具体准则,总结如下:

1. 故障定责不是为了给人定责的,定责在事项上才是明智之举。

2. 故障定责属于管理问题而非技术问题,对事不对人,但对人该有的处罚也还是不可免除。

3. 只要不是人为地恶意地去制造系统的事故,就不要去指责这个人,需要考虑的是怎么来有效管控人为因素。

4. 定责也分正反面,故障发生后我们一般分两类情况,定责和惩责:按事定责,对违规者惩责。

5. 在统一的故障文化下,具体问题具体分析,不指责,重改进。

6. 不放弃对人的追责,允许犯错,但不允许一错再错。

老师们针对今日热点话题都给出了自己的详细回答,感兴趣的可以往下浏览完整回答。

以上是关于系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!(内附故障复盘模板)的主要内容,如果未能解决你的问题,请参考以下文章

iOS越来越像安卓?同质化的背后库克到底背不背锅

故障不背锅 | 以 DevOps 之名怒怼 LOL 总决赛黄牛党

RedisTemplate:我不背锅,是你用错了

YAML 有漏洞被弃用?网友:YAML 不背锅!

不背锅运维:Go实现aes加密,并带你手撸一个命令行应用程序

YAML 有漏洞被弃用?网友:YAML 不背锅!