运维工作反思总结

Posted 数通畅联

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了运维工作反思总结相关的知识,希望对你有一定的参考价值。

软件项目的生命周期通常分为6个阶段如:项目前期、项目启动、项目蓝图、项目实施、项目验收、项目运维。在项目生命周期的最后一个环节就是项目运维,项目运维不仅是对一个项目里程碑节点的标识,项目运维是项目中的重要环节。

前几周运维工作中,客户反馈了一个问题,就是我在写解决方案时,只写了调整策略,没有写升级方案。而且对于运维的边界没有写清楚,比如产品的改动,需要评估的时间,后续对使用的影响等。在此对本次工作进行反思。

1内容描述

首先来回顾下事情的起因,同步分发逻辑和定位分析思路,描述事情的前因后果,方便后续人员快速了解。

1.1起因概述

这是一个由我负责的运维项目,客户在使用我们产品的过程中,发现HR人力管理系统和IDM统一认证系统人员数据不一致问题,于是希望我查明原因并解决问题。

1.2逻辑简述

逻辑说明:

1.HR分发数据到ESB服务器,以json数据格式储存;

2.定时读取json文件,调用IDM接口更新到IDM数据库;

3.同时更改IDM同步状态,此时没有更改分发状态;

4.进行分发任务操作,业务系统回写状态;

5.当所有系统分发完成后,调整分发状态,页面与HR显示一致。

1.3定位分析

HR同步到IDM系统数据没有问题,原因在于IDM分发到业务系统过程中存在问题,导致没有改变IDM的分发状态,结果IDM系统页面还能看到被HR删除的人员信息,具体原因如下: 

1.下游业务系统的接口,如果接口调用不通,会导致流程调用超时,流程终止,无法回写IDM分发状态; 

2.下游业务系统的接口,如果接口报错,流程被迫停止,无法回写IDM分发状态; 

3.有些业务系统分发成功还是失败,就结束了,没有回写的操作,所以无法回写IDM分发状态。 

2正确做法 

我在处理这个问题时,设想的是直接调整产品代码,来实现HR和IDM保持一致,但对于后续影响的风险考虑不周。正常的方式应该是先提出几种处理方法,经过领导确认,再引导客户推进工作。 

2.1对比分析 

提出的方案至少要有2种,例如本次运维,对于IDM数据与HR数据不一致问题,原因在于IDM自身逻辑需要分发系统回写日志,但实际没有回写导致。基于数据不一致的问题,为此提出两套解决方案,一套是在现有IDM版本基础上的调整方案,另一套是部署新版本IDM的升级方案。 

2.2方案大纲 

对于方案整体内容可以分为如下几项: 

1.问题描述:说明是什么原因导致需要对产品做调整 

2.原因定位:明确定位问题的原因 

3.原版本调整方案 

a)处理方法:解决问题的方法 

b)处理目的:说明处理的目的 

c)分析优缺:说明这种调整方案的优劣,如果推荐这种就多说些优点 

4.新版本升级方案 

a)同步逻辑:说明新方案的处理逻辑 

b)处理目的:说明处理的目的 

c)分析优缺:说明这种调整方案的优劣,如果推荐这种就多说些优点 

5.对比分析:阐述两种方案对比内容,这里给出样例表格如下: 

同时需要分别给出2种方案的人天数。 

2.3善于引导 

面对客户提出的需求,我们可以根据自己的理解和落地方式,再次和客户进行沟通,将实现方式和理论进行结合,通过我们自己的理解和通俗易懂的语言对客户进行说明,并引导客户通过我们既定的实现方式进行引导。 

3运维思考 

之前也出过运维相关的问题,都是一些运维方法方面的,本次遇到的问题其实是从另一个方面说明的运维工作,下面说下本次事情引发的思考。 

3.1意识方向 

对于一个已经运维很长时间的项目,在做调整时,一定要下意识考虑运维边界的问题。如果是调整产品方面的,要优先考虑产品升级。因为旧版本基本已经停止运维,有些功能已经被新版替代,如果在旧的版本上做调整,间接导致的风险需要预防。而且对于升级来说可以走商务,变相推动后续项目的开展。 

3.2独立思考 

在和客户沟通时,客户往往会提出自己的想法,我们要明确他们的想法只是就本次问题提出的解决方案,他们是不会从产品整体的角度考虑的。所以我们要有辨别的能力,不能被客户的想法带偏。要有独立思考的能力和意识,反客为主引导客户来实现我们的方法。 

3.3做好备份 

建立运维流程,运维人员要按照流程与既定规则,避免个人不良操作习惯带来的风险。每次解决客户问题后,都要及时保留解决文档,上传到SVN服务器上,群里的对话如果是客户确认的信息,必要时需要截图留下证据。当客户忘记时,可以及时给予提醒。 

4工作职责 

运维工作职责包括:协助完成IT系统基础架构的设计规划;负责系统硬件架构的实施部署工作;负责Windows、Linux以及Unix服务器系统的日常运维工作;负责数据库的日常运维;承担机房的运维工作;负责备份系统的日常维护。 

4.1系统稳定 

运维的主要工作是保证系统的可用性和稳定性,应用上线后,运维工作才刚开始,具体工作可能包括:升级版本上线工作、服务监控、应用状态统计、日常服务状态巡检、突发故障处理、服务日常变更调整、集群管理、服务性能评估优化、数据库管理优化、随着应用增减进行应用架构的伸缩、安全、运维开发工作。 

4.2明确界限 

心中要明确运维的边界,什么是需要运维做的,什么是不需要运维来做的,只有分清边界,才能更快更好地完成运维工作。具体内容如下: 

负责内容:调整安全、jvm、查数据、拉取推送数据等项目级工作; 

不负责部分:涉及到产品的改动运维没有权限做处理。 

4.3二次销售 

下意识对客户进行二次销售,在运维过程中,向客户渗透公司其他产品,推动后续合作。如果只是解决客户反馈的问题,只能说明你是一个合格的运维人员,想要进一步提升自己,学会二次销售是必不可少的技能。通过二次销售,推动客户与公司的合作,进而提高自己在公司的能力和地位。 

5总结反思 

以我当前的工作能力来看,以上所述只是运维工作的冰山一角,还有更多的内容有待总结。希望通过我这次暴露的问题,帮助运维部门其他同事少走弯路,推动部门的建设。 

5.1弥补不足 

其实这次工作最主要的问题就是没有想到推动升级,没有从公司的角度推动项目,我只是想调整代码来解决,对于风险的评估不到位。之前也是嘴上说要二次营销,但实际工作中却没有想到,确实是工作上的失职。说和做还是有一定的差距,后续要时刻警醒自己。 

5.2继续磨练 

了解自身有哪些优缺点,意识态度要端正、去除劣根性,从一次次暴露的问题上,学习正确的处理方法。这样才能让你在工作中发光发热,才能让你在职业生涯中走得更远。目前还需要继续磨练自身的能力,只有自身能力强了,才能在运维工作中以正确的思考方式完成工作,为公司赢得利益。 

5.3运维展望 

对于未来部门发展,运维工作是需要分配给其他部门成员的,只有自己掌握运维知识是远远不够的,还需要制定运维规范和流程,帮助其他人学会标准的运维。 

IT运维已经在风风雨雨中走过了十几个春秋,如今它正以一种全新的姿态摆在我们面前—自动化,这是IT技术发展的必然结果。现在IT系统的复杂性已经客观上要求IT运维必须能够实现数字化、自动化维护。 

运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。 

以上是关于运维工作反思总结的主要内容,如果未能解决你的问题,请参考以下文章

未来的日子还有理想

我做算法工作的小反思!

2022年度总结:反思与回顾

2022年度总结:反思与回顾

项目运维工作的心得总结

数字前端工作总结