系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!(内附故障复盘模板)
Posted TakinTalks稳定性社区
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!(内附故障复盘模板)相关的知识,希望对你有一定的参考价值。
# 一分钟精华速览 #
系统故障无法避免,事故发生的原因多种多样,故障定责不是为了指责而是为了后续的优化改进,可很多企业在定责时难免遇到团队、个人之间推卸责任的情况,定责定的到底是什么 “责”?TakinTalks 社区的 5 位专家,给出了 6 条具体准则,总结如下:
1. 故障定责不是为了给人定责的,定责在事项上才是明智之举。
2. 故障定责属于管理问题而非技术问题,对事不对人,但对人该有的处罚也还是不可免除。
3. 只要不是人为地恶意地去制造系统的事故,就不要去指责这个人,需要考虑的是怎么来有效管控人为因素。
4. 定责也分正反面,故障发生后我们一般分两类情况,定责和惩责:按事定责,对违规者惩责。
5. 在统一的故障文化下,具体问题具体分析,不指责,重改进。
6. 不放弃对人的追责,允许犯错,但不允许一错再错。
老师们针对今日热点话题都给出了自己的详细回答,感兴趣的可以往下浏览完整回答。
以上是关于系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!(内附故障复盘模板)的主要内容,如果未能解决你的问题,请参考以下文章
故障不背锅 | 以 DevOps 之名怒怼 LOL 总决赛黄牛党