架构师日常-稳定性工作

Posted Q博士

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了架构师日常-稳定性工作相关的知识,希望对你有一定的参考价值。

01 值班制度

这里的值班制度是针对一些高峰期不在我们上班时间的业务,也会在一些特殊的业务高峰期,比如618,双11,双12这种节点。而目前我们业务采用的值班制度是在早高峰9点到11点,一般这个时间点,我们刚起床,或者在路上。出现问题时,没有人跟进,而时间一过11点,当天订单全部结束,所以影响较大。在经历过几次线上事故,线上恢复时间都较慢后,所以制定了值班制度。

何人值班

值班角色有RD/QA/OP/FE,几乎全角色每天都有一人,以周为单位循环,除了QA/OP/FE周一到周五是固定,RD是每周更新一次,更新的机制就是模块报警数量前5的模块负责人,我们有报警统计平台,利用平台数据,可以每周末得到前5名单。同时每天有值班负责人,由各个方向高工服务,主要是确保值班人员到位,辅助协调其他人员配合。

值班做什么

  • 跟进服务报警,快速排除恢复服务
  • 快速跟进业务反馈的问题,跟服务异常有关的,快速跟进,业务问题研发不跟进

02模块负责人制度

在微服务架构下,模块众多是个常态,模块多没问题,但如果模块问题没人跟进就会威胁稳定性,一个模块出问题没人跟进,关联模块都会受影响,所以在我转到当前业务的时候,首先将每个模块都指定了专人负责,模块负责人负责该模块的所有事情,包括但不限于以下

  • 报警梳理与跟进
  • 功能维护与架构优化
  • 框架升级跟进与底层库升级

可能很多人会有疑惑,模块不是本身就有负责人,为啥还要指定。有一些历史原因,一是新人较多,我来的时候团队60%的人都是新招来的,对已有功能不熟悉是个实际情况,二是模块划分不清晰,平时大家都在开发需求,一个模块里面什么功能都有,所以也就分不清楚该谁维护。

历史原因是历史原因,只要影响了服务稳定性,就要改变,所以就指定了该制度

03线上问题跟进

明确线上问题的生命周期,我切分了6个周期。如下:

  • 问题发现
  • 问题跟进
  • 问题定位
  • 问题修复
  • 问题消除
  • 问题回顾

且明确了每个阶段要做的事情,且每件事都很具体,不抽象。只要大家按照流程跟进问题,大多数问题就会很快得到解决。特别是问题回顾,让整个事情能形成有效问题闭环,每一个问题产生的共性问题以及措施,都能在后面提升我们解决问题的速度。

04架构优化

这里的架构优化,不是是涉及到危害稳定性的架构优化工作,当然后面我会专门说架构优化这个专项,因为我做过0-1,1-n的架构优化很多次,也有一些经验沉淀。

这里面的一些优化点,大多是从一些线上问题中发现的,一些设计不合理的点,但是不是很快能解决。这类问题越来越多的时候,且有一些共性的时候,我们就会起一些优化需求。

05意识提升

其实很多问题,归根到底是人的问题,就比如你指定了制度和流程,那么有人就是不遵守,那你也达不到提升稳定性的效果。所以也有慢慢灌输稳定性的重要性,所以这里面就涉及了团队管理工作。刚好我又是研发团队技术负责人,所以这个工作会渗透在日常管理各种事情上

以上是关于架构师日常-稳定性工作的主要内容,如果未能解决你的问题,请参考以下文章

架构师日常-稳定性工作

架构师日常-稳定性工作

架构师日常-稳定性工作

架构师日常-团队管理

架构师日常-团队管理

架构师日常-团队管理