线上问题SLA治理
Posted opama
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了线上问题SLA治理相关的知识,希望对你有一定的参考价值。
背景
去年部门里很重要的OKR 就是线上问题SLA达成率,背后的核心就是需要近可能快速响应商家的咨询和反馈,服务好金主爸爸,在当前的世道下,只有服务好客户才能活下去。在H1的减员增效后,就没剩下几个技术支持了,客满、服务同学的问题大多都需要研发承接,需要安排值班的同学来承接这部分线上问题,对于研发的吞吐量是一定的损失,但好的一面也是有的,研发可以更近距离的了解自己产品的线上质量和收集商家的咨询反馈。
措施
为了达成线上问题及时处理,首先需要和开发一起约定一套线上问题处理和复盘的流程。
首先开发前后端需要各安排一个值班同学专门处理线上问题,虽然线上bug都是由开发直接处理的,但是测试也需要有一个值班介入线上问题处理,主要做的事情:
- 协助进行问题定位、验证和审批
- 关注问题处理时效和流程是否合理
- 每周整理线上问题,跟研发tl和产品一起过一下线上问题
在关注问题处理时效的时候,我通过写了一个机器人定时扫描快过期的问题进行通知值班和测试(不得不说飞书机器人挺好用的),来督促值班人员及时处理问题以及让测试/tl 介入关注问题无法及时解决的原因。
在初期的一段时间内,测试人员通过介入和观察超期的jira,发现了jira无法及时处理的主要原因,以及指定了相应的对策:
- 值班手上的jira比较多,无法及时处理;通过机器人提醒剩余处理时间可以一定程度上让值班同学按照紧要程度优先处理快过期的线上问题
- 值班未及时处理或者流转jira;这个也可以通过机器人提醒进行解决
- 线上问题较难处理或者没有较好的解决方案。这块需要找tl一起确认是否无法解决或者采用临时解决方案先保障商家能够使用
- 需要外部以及产品确认,直接将jira转走,但相关人没有及时处理。在流程上需要闭环,值班人需要关注经手的jira是否得到最终的解决。
在每周结束,值班人员收集和统计线上问题,跟研发tl和产品一起过一下线上问题,主要关注的是如何减少线上问题和提高问题处理的效率:
- 对于线上的bug,分析下问题产生的原因,如何规避类似的问题,落地一些action,如补充自动化或者技术方案设计的规范
- 对于SLA未达标的问题,分析SLA未达标的原因,如何优化流程或者提高效率减少未达标的问题数量;在提高问题处理效率方面,比较好的实践主要有:编写和维护值班人员手册,汇总常见问题和案例,整合排查工具,让值班人员能够快速定位。如果存在一些高频和耗时场景,研发内部可以设计和开发一些问题排查工具
- 对于商家的咨询问题,看下哪些是合理的建议或者是高频的问题,考虑产品进行优化或者产品编写帮助文档让商家更好的使用产品;同时开发同学有时会觉得一些线上问题是特性而非问题,当作普通咨询回复商家,这时需要大家一起看下是否合理。
通过上述的机制和措施,研发侧问题处理的规范性和效率有了一定提高。虽然站在研发侧角度看问题处理的耗时不长,但站在端到端的角度来看,还是有一些线上问题超期,很多是前置流程里的客满、技术支持同学耗时过长,导致线上问题转到研发侧时可能已经超时了。所以线上问题治理需要确保各个环节效率都比较高,目前系统已有的杀器,通过推荐算法推荐一些相似的问题来帮助客满同学快速找到答案
另外研发这边也给客满、技术支持同学提供一些排查工具,即将问题定位排查的能力赋能给他们,进一步问题解决的速度和释放研发排查的人力。
效果
业务域的问题处理达标率从H1的85%提升到了H2的95%,在这个过程中沉淀了研发aciton和产品优化项70+,帮助业务域的线上问题下降10%
微服务引擎的线上流量治理最佳实践
简介:本实践将重点介绍如何快速集成主流开源微服务框架,实现业务零改造,解决开源框架在生产落地过程中的痛点,例如无损上下线、标签路由等,并通过托管微服务开源组件(API网关、注册中心、配置中心等)的服务,提供白屏化监控告警、容灾、宕机重启、扩缩容等能力,帮助企业释放业务无关的运维成本,聚焦业务本身的运维和发展。
直达最佳实践:【微服务引擎的线上流量治理最佳实践】
最佳实践频道:【最佳实践频道】
这里有丰富的企业上云最佳实践,从典型场景入门,提供一系列项目实践方案,降低企业上云门槛的同时满足您的需求!
场景描述
随着业务不断创新,微服务架构及数字化转型不断落地,在这个过程中,大量企业采用了开源的组件构建了微服务,比如有开源微服务全家桶之称的Spring Cloud体系或Apache Dubbo等,微服务的好处之一,在于快速迭代,如何在迭代过程中保障线上流量不受损?开源产品无运维工具,常常需要投入较大的运维人力和成本。
解决问题
1、快速集成:通过JavaAgent技术实现Sping Cloud和Dubbo框架可以实现业务零改造接入。
2、免运维:托管微服务依赖开源中间件的服务,提供白屏化监控告警、容灾、宕机重启、扩缩容等能力,帮助我们客户释放业务无关的运维成本,聚焦自身业务本身的运维和发展。
3、开源增强:提供开源框架在生产落地过程中的痛点,例如应用无损上下线/金丝雀发布/南北+东西流量打通等,帮助客户的业务提高自身SLA和降低自研成本。
产品列表
⚫微服务引擎MSE
⚫容器服务ACK
⚫注册中心/网关MSE
⚫负载均衡SLB
业务架构
原文链接:https://developer.aliyun.com/article/781583?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
以上是关于线上问题SLA治理的主要内容,如果未能解决你的问题,请参考以下文章