故障是生产环境的“BUG”基础知识
Posted CrissChan
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了故障是生产环境的“BUG”基础知识相关的知识,希望对你有一定的参考价值。
故障的类型
故障的生命周期:发现异常、排查问题、判断决策、恢复处理。
故障可以分成可用性故障、资损类故障
可用性故障
技术原因导致系统部分或者全部功能不可用,业务没办法正常完成对应流程或者提供对应服务。比如因为网络、DB、接口 Bug 等原因,用户没办法登录、商品列表不显示等。可用性故障的根因大多在技术本身,包括但不限于: DB 设计、接口实现、链路架构、上下游的依赖、中间件的实现等原因,特点是发现容易、杜绝难、业务影响明显、对应急处理速度要求高。
资损类故障
系统的功能都能正常使用,但因为逻辑、计算等原因让业务的某一方产生了资金损失。比如用户支付一律为 0 元、错发 999 无门槛优惠券、商户清结算少打款给商户等等。资损类故障更多和隐蔽的业务逻辑和架构设计的缺陷有关,可能还涉及产品逻辑或业务错配,特点是非常隐蔽、难发现、往往持续时间长、防控成本高、大部分开发同学意识薄弱。
故障的有效处理办法
故障前预防
主动治理减少系统的风险隐患,重点在变更管控、可用性设计、应急预案与演练。
故障中应急
“止血、恢复”是原则。
故障后复盘
目的不是追责,查根因、改进架构、完善应急、总结经验才是我们想要的。
复盘的核心不是为了追责或者甩锅,而是最大程度榨干故障的剩余价值,通过全盘的思考与总结,来看看系统设计、流程机制、应急处理、人员安排等各方面有哪些不足,哪些可以提升的地方,哪些问题是共性的,需要在各团队进行“大扫除”。
复盘可以从时长、现象、处理时间轴、根
以上是关于故障是生产环境的“BUG”基础知识的主要内容,如果未能解决你的问题,请参考以下文章