现阶段的自动化运维软件能够把故障定位精确到什么程度?
Posted twt企业IT社区
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了现阶段的自动化运维软件能够把故障定位精确到什么程度?相关的知识,希望对你有一定的参考价值。
企业在发展,运维工作量在不断的增加,企业的运维工作面临着制度、技术路线,运维工具的选择等方方面面的问题需要解决,为了帮助大家解决这些问题,社区组织对企业中自动化运维平台的方案设计进行了深入交流。根据交流内容,嘉宾聂奎甲已经总结了(点击标题可阅读),今天则为大家整理了活动中大家都比较关心的几个实践中的典型问题,供参考。
1.自动化运维工具选择时,有哪些因素需要考虑?
在选择自动化运维工具时应该从以下几个方面考量:
一是自动化运维工具的成熟度,即在业界的受众面。这里无论是对商用的还是开源的都可以从这个角度进行评估;
二是自动化运维工具的功能能否满足运维需求;
三是如果是选择开源的自动化运维工具还要考虑工具的技术栈和公司人员的技术栈是否匹配;
四是自动化运维工具在安全方面是否有良好的支持;
五是自动化运维工具在工作过程中对主机性能的影响,尤其还要测试在并发大的时候,对运维工具平台自身服务端的压力;
六是还要考虑选择的自动化运维工具是否满足公司后续技术栈的发展需要。
2.现阶段的自动化运维软件能够把故障定位精确到什么程度?
一个小小的故障出现必将引起数十个甚至上百的设备报警,那么现阶段的自动化运维软件能够把故障定位精确到什么程度?还是仅仅能做到提示,真正的故障原因还需要运维人员自己去手动找?
故障定位算法采用机器学习中的二叉决策树的方式实现:
一方面希望将故障所产生的所有告警信息整合为一条信息,减少告警量;
另一方面希望能够智能定位出故障点,减少工程师排查问题的时间,并引入自动化处理。
以网络故障原因定位为例,实现上述目标需要三步:
第一步:将问题排障过程的经验提炼成二叉决策树;
第二步:将告警信息按照时间分片算法进行分类分组;
第三步:将分组的告警信息输出给决策树进行自动推理输出推理结果。
智能定位出故障点,尽可能减少人工参与,提高运维效率。
3.自动化运维风险如何规避?权限如何控制?
自动化运维几个可能存在的风险:
1、自动化运维的管理账号权限设置是否合理,该账号是否限定了权限,能不能通过该账号重启一些重要服务
2、自动化运维的交互界面,对一些高危动作,如执行rm *,是否做了二次提醒和密钥验证
3、需要使用自动化运维平台实施的大规模变更,是否有完善的审核制度。
4、对于自动化运维平台本身程序版本、运维策略,是否验证过备份和恢复。
4.自动化部署和发布有哪些流程?
自动化部署,每个企业都是不一样的。目前大多企业还是停留在应用部署,业务停止的级别上,就是停止当前应用,重新发布。对于一些走在前面的行业,业务场景要求业务是不能中断的,大多还是逐步发布或更新。这样在有问题的时候回退和影响面影响都会比较小。
一般自动化发布流程是开发环境发布----测试环境发布---生产预发布----生产发布代码管理大多都有统一的管理平台,诸如svn或git 进行。
5.运维人员不足的情况下,如何保证自动化运维的可靠性?
自动化运维几乎不需要手动工作,这也就意味着它不仅可以提高产出,还可以将运维人员从复杂的传统运维工作中释放出来,将其知识和技能应用于更有价值的工作和任务上。此外,通过减少周转时间,每天可处理工作量也提高了。
运维常常包括一些重复的但完全必要的工作,这也就是为什么它容易出错。当人为因素从这个过程中消除时,那些昂贵的人为错误也自然消失了,这对于具有多个操作系统的大型网络尤其有用。自动化运维可以明显提高可靠性,减轻运维人员繁琐的手动任务。
聂奎甲:十余年工作经验,主要参与政府、电力、国土等行业的系统集成项目,包括主机存储、oracle数据库,精通计算机网络与安全。
相关阅读:
资料推荐下载:
企业级自动化运维设计方案
http://www.talkwithtrend.com/Document/detail/tid/419363
更多自动化运维主题相关内容请点击阅读原文
以上是关于现阶段的自动化运维软件能够把故障定位精确到什么程度?的主要内容,如果未能解决你的问题,请参考以下文章