去哪儿网利用运维工具提升运维效率
Posted 云雀运维云平台
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了去哪儿网利用运维工具提升运维效率相关的知识,希望对你有一定的参考价值。
很多朋友问小编,你整天喊着卖的云雀运维管理平台是不是只能过ITSS啊,一般落地应用的很少?运维管理平台对运维人员管控比较大,而且直接的管理人员通过工具管理的意愿也不是很强。在落地性上是不是不太好?对于这样问的朋友我只能说你“too young too native”!今天我带来的这个案例就是国内著名的旅游网站“去哪网”应用平台提高运维管理效率的真实案例!
事件背景
1. 运维的工作量逐渐增大
最近这些年,去哪儿的网络设备数量逐年增加,但是运维人员还一直维持在很少的几个人,单人运维工作量不断增大;
2. 运维效率不高
目前变更操作基于命令行和脚本进行,需要运维人员手动登录目标设备和执行操作,操作内容包含大量简单和重复的操作,占用了运维人员大量的事件。
3. 运维变更存在风险
基于命令行和脚本的变更操作一旦操作疏忽会导致不可估量的风险。另外,具体的操作人无法跟踪追查,不利于操作审计核查。
概况介绍
基于上述背景考虑,我们咨询了相关的专业人员,给出了下面几点解决方案:
工具命令集成。将运维常用工具和命令集成到平台和服务中,让平台来执行频繁的重复操作;
操作自动化。分解常见的运维内容为基础指令集,集成到平台中为一系列的可自动执行的任务列表;
操作逻辑智能检测。对操作预检查,杜绝不可控的变更,原子操作,闭包检查,杜绝异常操作,异常自动回滚;
操作权限分级控制。任务和用户双向权限分级,不同的操作内容设定不同的权限才可操作,不同的登录用户赋予不同的权限,如此来防止不可控的用户操作;
操作记录追踪审计。记录每项操作的执行人,内容,时间和结果到数据库,对操作可后期审计,异常操作追溯。
结合上述优化思路和运维人员日常运维内容,我们上线了去哪儿网络设备运维平台。平台截图如下:
详细说明
运维平台架构图
平台数据流图
1.权限控制
操作权限分级,总共分为5级,权限从低到高分别为访客,只读,读写,管理员和超级管理员;
具体原子操作绑定对应级别的权限上,譬如访客只能查看有限的信息,只读用户可以执行读设备信息操作等等;
高权限可以赋予比自己低的权限给其他用户,可以查看自己授权的用户的操作日志。用户不能查看和自己相同权限或比自己权限高用户操作日志。
同一个待授权的用户可以多次被授予不同级别的临时权限,在完成指定操作之后,撤销授权。在保证安全性的同时保证灵活性。
2.操作及任务
本平台可支持如下的自动化操作:
扫描抓取核心交换机和接入交换机关联关系;
抓取,备份,同步交换机全局和各个端口配置配置数据;
端口up/down,修改端口描述,修改端口速率,端口置为trunk;
端口分配vlan;
端口锁定防止操作;
用户确认执行某项操作后,平台立即启动对应的celery任务。本平台任务分为两类任务:
及时任务。任何平台支持的自动化运维操作对应一项celery及时任务。用户确认操作后,celery启动对应的任务,保证任务执行正确性,如果执行异常,回滚并警告用户。单个设备操作任务事实上也是自动ssh到目标机器上执行相应网络设备变更命令。
定时任务。将一些日常运维操作映射为平台内置定时任务,可以由用户手动触发一次性或循环定时操作。
3.监控管理
本平台监控两类数据,一类是网络层次,粒度的是交换机和关联的接入交换机组成的小集群;一类是设备层次,粒度是单个交换机端口。
对于网络层次监控,基础数据来源于各个交换机端口监控数据,基于核心交换机和接入交换机关联数据通过weathermap绘图,在平台上渲染展示出来。
平台可以基于设备基础信息进行自动发现:
发现核心交换机和接入交换机关联关系,绘拓扑图;
发现各端口状态,发现端口异常状态,譬如端口;
发现各端口间流量负载情况,发现流量异常情况;
如上图所示,各个设备之间连接流量负载一目了然,灰色表示没有流量,绿色为负载正常,红色表示负载过重。
对于设备端口指标监控,基于collectd的snmp远程抓取来实现。用户在平台上管理和配置设备监控指标和模板。指标和模板变更后,平台自动通知Marathon平台更新collectd抓取集群上的抓取docker实例。
设备监控指标数据抓取架构如下:
平台监控配置有如下特点:
配置灵活高效。可以从指标,模板,匹配规则三个维度进行配置,一旦配置完毕,新增同类新机器上架,老机器下架监控自动更新;
动态扩容,负载均衡。使用docker和marathon实现抓取集群的动态扩容和负载均衡;单collectd抓取实例抓取多台网络设备指标,单抓取机启动多个抓取实例,每个机房多台抓取机来实现负载均衡。
持续优化
总结
运维管理平台是为了解决实际运维工作出现的难题而生,提高了运维效率,降低了操作风险,优化了运维流程。后续将针对运维人员面对的更复杂的问题快速迭代和持续优化。
云雀运维平台介绍
云雀运维云平台是基于ITSS、ITIL管理思想与标准规范,结合云计算、智能物联网、三维虚拟现实、移动互联网等先进技术打造的、集IT运维、电子商务、安全审计、网络监控与一体的综合性服务平台;是在公司九年客户实践经验的基础上形成的,以“实时监控、智能预警、主动响应、标准实施、专家指导、安全审计”为核心的“IT大运维”服务理念的最佳实践。
平台由云专家系统、云知识系统、云统一呼叫系统、云雀联盟、备品备件系统、云监控中心、加盟商平台、用户中心、移动APP及在用户本地网络实施智能监控预警、自动化探索发现及运维安全审计的本地系统构成。平台在设计开发初期就预置了大量的扩展接口,可无缝接入客户现有的主机监控、网络监控、环境监控等监控系统以及OA办公、资产管理等业务系统;平台基于云计算SaaS模式运营,用户不需要购买任何硬件,只需要简单注册即可使用。企业无需再另外配备IT方面的专业技术人员,同时又能得到最新的技术应用,满足企业对IT运维管理的需求。
云雀运维云平台的实施,可有效解决企业IT运维工作缺乏明确的角色定义和职责划分;IT 系统出现问题后,难以快速、准确地找到根本原因,并及时地找到相应的人员进行修复和处理;发现问题后,缺乏流程化的故障处理机制;处理问题时,欠缺规范化的解决方案;对问题的发现及解决过程缺乏全面的跟踪记录;缺少自动化的IT 运维管理模式等问题;平台通过对核心设备及业务系统的实时监控,指标超阀值时的多渠道智能预警,可发现问题于萌芽状态,变被动为主动;在运维过程中引入4A认证机制,通过完善的运维安全审计系统实现IT运维过程的事前授权、事中监控、事后审计,确保核心业务系统安全、稳定、高效运行。
以上是关于去哪儿网利用运维工具提升运维效率的主要内容,如果未能解决你的问题,请参考以下文章