数据中心自动化运维之路

Posted 企业网D1net

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据中心自动化运维之路相关的知识,希望对你有一定的参考价值。



=======


自动化运维其实也算是老生常谈,一谈谈了十几年,但却一直没有质的提升。数据中心的运维工作反而变得越来越繁重与复杂,当然这和这些年数据中心巨大的变化紧密相关,数据中心承载的各种应用越来越多,运维工作也变得异常复杂,简单的自动化运维已经不能彻底解决数据中心运维工作效率低下的问题。以前,数据中心运维人员就像流水线上的一名工人,不断重复地做着同样的工作,枯燥又容易出错,自动化运维就是要引入一些工具,通过这些工具来替代运维人员来工作,从而减少人力成本,同时提升数据中心的运维水平。


那么自动化运维,其实就是向数据中心引入一批工具,这批工具是“可编程”的,你只需要为这批工具写上几行“代码”,它便会帮你自动完成所有的工作,而这批工具就是实现自动化运维的手段。这些工具可以分为三大类:预备、配置管理和监控,从这三大方面代替人力工作。预备自动化工具常见的有Cobbler、Kickstart、OpenQRM、Spacewalk。在早期,Linux管理员整理出一个软件包列表,通过rpm进行批量软件安装。后来,我们用Kickstart来执行无人值守的Linux安装。现在,Cobbler把这个功能提升到了一个新的高度:它实现了物理机与虚拟机的并行系统构建,并且可以进行DHCP和DNS的配置。OpenQRM是开源系统管理解决方案,用来管理企业数据中心业务,同时包括虚拟环境管理、数据中心自动化,是一个基于Web的开源云计算和数据中心管理平台。Spacewalk是一个Linux和Solaris的系统管理解决方案,它是Red Hat网络卫星项目衍生出来的上游社区项目。这些预备管理工具多是针对服务器的,对服务器进行自动化管理,如果不是自己亲身使用和体验,很难说这些工具软件孰好孰坏,每种工具都有其适合的应用场合,这些工具尤其在互联网企业的数据中心运维中使用极为广泛,这些工具需要操作者具有较高的计算机编程能力,对运维人员的要求较高。


配置管理工具用来设置参数或者开启一个新服务器上的服务。配置管理可以用于服务器自动构建。服务器自动构建工具可以加速部署速度,并可以在短时间内大规模部署服务器,同时也可以让构建过程更容易复制。在发生严重故障时,还可以重建架构。配置管理工具常见的有Chef、ControlTier、Func、Puppet。比如Chef是一款自动化服务器配置管理工具,可以对管理的对象实行自动化配置,Chef由三大组件组成:Chef Server、Chef Workstation和 Chef Node。Chef Server 是核心服务器,维护了一套配置脚本,与每个被管节点交互并给出配置指令,Chef Workstation提供了我们与 Chef Server交互的接口:我们在Workstation上创建定义Cookbook,并将 Cookbook上传到Chef Server上以保证被管机器能从Chef Server 上取得最新的配置指令。Chef Node是安装了chef-client并注册了的被管理节点,可以是物理机或者虚拟机或者其他对象。Chef Node每次运行chef-client时都会从Chef Server端取得最新的配置指令并按照指令配置自己。ControlTier是一个完全开放源码系统的自动化服务管理活动的多个服务器和多个应用层的工具,它可以对数据中心里的各种设备进行自动配置下发和管理。


这些大部分工具都是实时的,可以用来进行变动并执行某些任务。它们却缺乏关于当前系统状况的信息,于是监控工具就有了用武之地。对于传统的系统管理员而言,监控无非是在发生错误的时候通过一个页面或者一封邮件提醒他们。监控工具常见的有Nagios、OpenNMS、Zabbix、Zenoss Core等等。Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等,当发现监控设备运行异常时,自动发出告警,还可以将告警消息发给运维人员,以便可以得到及时处理,避免异常对业务造成严重影响。OpenNMS是一个企业级基于Java/XML的分布式网络和系统监控管理平台,OpenNMS是你管理网络的绝好工具,它能够显示你网络中各中终端和服务器的状态和配置,可以监控各个网络设备运行的状态,互通情况,一旦出现异常立即可以上报异常告警。


说了这么多工具,不难发现这些工具主要针对的都是服务器的,部分工具有网络监控的功能,而且这些软件都是开源的、免费的,大家都可以根据自己的数据中心需要对这些软件进行修改,更加适应自己的数据中心,这样这些工具获得了很广泛的应用。网络是数据中心里最封闭的一个系统,对网络进行管理的软件也无法完全做到开源,所以那些免费的、网络上的软件都不是很好用,不得不使用网络设备厂家提供的网络管理软件,才能达到很好的适配效果。工具毕竟是死的,人是活的,工具只能按照继承的顺序来执行一些人为提前设置好的脚本而已,这样的自动化应该只能算是一种低级的运维方式。真正的自动化运维是可以和数据中心有机结合,数据中心运行中配置自动下发、网络自动调节,形成对应各种复杂场景的自适应数据中心,数据中心自动化运行。


这些工具的出现,为数据中心运维提供了极大方便,是自动化运维的具体表现。数据中心要走自动化运维的路,就需要大批地使用这些工具,通过这些工具逐渐代替运维人员的工作。运维人员通过自动化运维,将规范、常规的操作固定化,减少重复的手工操作,避免误操作。通过模板化,根据模块信息智能化分析,实现快速发单,同时串并行控制,提升模块更新效率,这就是数据中心自动化运维的时代,只有坚持走自动化运维的路,数据中心的运维效能才会有质的提升,让我们沿着数据中心自动化运维的道路坚持走下去。


(来源:企业网D1Net)

以上是关于数据中心自动化运维之路的主要内容,如果未能解决你的问题,请参考以下文章

京东数据库运维自动化体系建设之路

中国人寿自动化运维自主研发之路

爱奇艺数据库自动化运维之路

python 运维自动化之路 Day2

取舍有道:看移动云数据库自动化运维平台建设之路(有彩蛋)

python 运维自动化之路 Day3