故障是生产环境的“BUG”基础知识

Posted CrissChan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了故障是生产环境的“BUG”基础知识相关的知识,希望对你有一定的参考价值。

故障的类型

故障的生命周期:发现异常、排查问题、判断决策、恢复处理。
故障可以分成可用性故障、资损类故障

可用性故障

技术原因导致系统部分或者全部功能不可用,业务没办法正常完成对应流程或者提供对应服务。比如因为网络、DB、接口 Bug 等原因,用户没办法登录、商品列表不显示等。可用性故障的根因大多在技术本身,包括但不限于: DB 设计、接口实现、链路架构、上下游的依赖、中间件的实现等原因,特点是发现容易、杜绝难、业务影响明显、对应急处理速度要求高。

资损类故障

系统的功能都能正常使用,但因为逻辑、计算等原因让业务的某一方产生了资金损失。比如用户支付一律为 0 元、错发 999 无门槛优惠券、商户清结算少打款给商户等等。资损类故障更多和隐蔽的业务逻辑和架构设计的缺陷有关,可能还涉及产品逻辑或业务错配,特点是非常隐蔽、难发现、往往持续时间长、防控成本高、大部分开发同学意识薄弱。

故障的有效处理办法

故障前预防

主动治理减少系统的风险隐患,重点在变更管控、可用性设计、应急预案与演练。

故障中应急

“止血、恢复”是原则。

故障后复盘

目的不是追责,查根因、改进架构、完善应急、总结经验才是我们想要的。
复盘的核心不是为了追责或者甩锅,而是最大程度榨干故障的剩余价值,通过全盘的思考与总结,来看看系统设计、流程机制、应急处理、人员安排等各方面有哪些不足,哪些可以提升的地方,哪些问题是共性的,需要在各团队进行“大扫除”。

复盘可以从时长、现象、处理时间轴、根

以上是关于故障是生产环境的“BUG”基础知识的主要内容,如果未能解决你的问题,请参考以下文章

云原生应用

生产环境10分钟黄金时间快速排障:CPU不定时飙高怎么排查?

腾讯云物理硬盘固件版本Bug,导致用户线上「生产数据完全丢失」

生产环境中的 Vue 故障

大文件拆分问题的java实践(附源码)

故障复盘:数据库连接池