虚拟化项目的监控灾备及案例 | 肖力说KVM

Posted 高效运维

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了虚拟化项目的监控灾备及案例 | 肖力说KVM相关的知识,希望对你有一定的参考价值。

编辑

  • 高浩淼-北京

嘉宾介绍

肖力 资深KVM专家

拥有15年运维经验,就职于金山西山居,担任系统运维经理,曾就职于盛大游戏,从2009年开始研究KVM技术,是国内较早在生产环境大规模实践KVM的人之一,积累了非常丰富的经验。著有《深度实践KVM》一书。

专栏简介

本次介绍长期的虚拟化项目实践中的经验,主要介绍如何将已有的业务迁移到虚拟化环境。本文是第四篇。其他三篇的链接如下:



正文

本文介绍虚拟化运维中的监控、报警、灾备及应急响应要点是什么。

虚拟化项目的监控、灾备及案例 | 肖力说KVM(4)

监控报警

硬件故障报警,现在主要是使用带外管理卡报警。

新一代服务器,带外管理卡监控已经非常完善,CPU、内存、磁盘、网卡、风扇、电源任何硬件故障都会报警,通过邮件,或者写脚本和自己的监控平台结合,可以很好的解决硬件报警的问题。

  • CPU:建议每个核的CPU利用率也监控起来,经常会碰到一直情况,就是整体的CPU利用率不高,可能只有20-30%;但是有一两个核已经100%了,这时候其实已经碰到压力瓶颈了,但是通过整体的CPU利用率是发现不了的。

  • 内存:swap利用情况建议也监控起来,作为虚拟化来说,一般不希望宿主机使用swap分区,所以swap的使用要监控起来,方便出问题的时候排查,如果有大量的swap使用,应该设置报警,肯定是碰到性能问题了。

  • 磁盘、网络:虚拟化磁盘、网络是两个难点,一般在上线之前,应对其性能进行压力测试,得到极限数据,然后根据极限数据设置报警阀值。

灾备及应急响应

虚拟化的灾备有两种思路,应用层灾备及虚拟化层灾备,一般建议在应用层灾备。

虚拟化项目的监控、灾备及案例 | 肖力说KVM(4)

虚拟化层灾备的手段是多份的镜像复制及快照,这个往往要消耗大量的资源,多份复杂是以牺牲几倍的磁盘空间为代价,快照是以牺牲性能为代价。

往往应用层即使做了很少的改动,虚拟化层难以感知,于是只能全部备份,或者快照。

但是应用层灾备就简单很多,只需要备份最近改动的部分,消耗的资源很少,而且速度很快。

灾备还要注意,定期演练非常重要,一方面是验证自己的灾备几种,一方面也是让参与的人能熟悉灾备过程,这样当发生问题的时候,就可以很快的恢复业务。

软硬件选型

  • 软件方面,当然是稳定版本,但是在稳定版本的基础上,内核版本越高越好,为什么呢?

    因为内核版本越高,对CPU的上下文切换和中断优化的越好,越有利于提高宿主机转化率。Windows系统也一样,Windows虚拟机建议尽量使用比较新的版本。

  • 硬件方面越强悍越好,内存越大越好,硬件越强悍,可以虚拟的虚拟机越多,从长时间综合看,肯定是节省成本的。

    另外,一台宿主机,使用上一段时间,我们往往发现内存是瓶颈点,所有一开始的时候,尽量内存配置点一点,可以避免随后的内存瓶颈。

公有云的选择

下面是本系列专栏的最后一项内容公有云选择的一些经验。

用户选择公有云的主要因素主要有以下5条:

虚拟化项目的监控、灾备及案例 | 肖力说KVM(4)

  1. 市场
    主要是价格,还有写公司和某些公有云就有合作,或者就是老板强制指定必须使用某款公有云。

  2. 云主机稳定性
    选择公有云,对用户来说,最终用的就是云主机,所以云主机的稳定性也是重要因素,如果云主机三天两头崩溃、重启,甚至数据丢失。这方面,一般公有云都能做到。

  3. 网络覆盖及网络质量
    在云上业务都是基于网络,网络质量是一个很关键的因素,网络质量包含多个因素:

    覆盖范围,覆盖范围越广越好;

    延时,丢包,抖动,就是延时、丢包符合要求,网络抖动不能很频繁。

  4. 大数据分析、RDS、运维工具支持
    如果公有云能提供API,提供一套方便业务部署监控的工具,对用户也有一定的吸引力,尤其是运维。

  5. 融合物理机和云主机的混合云是喜闻乐见的解决方案
    业务压力非常高,就需要物理机的支持,现在可以看到好多公有云也开始支持物理机的租用。

将业务迁移到云上,其实和虚拟化的过程是一样的,按照前面介绍的流程去做,可以保证比较稳定的完成,而且虚拟化的具体技术还不用我们关心。

最后,总结下本系列分享的内容:

虚拟化项目的监控、灾备及案例 | 肖力说KVM(4)

在企业内部实施虚拟化,最重要的时候口碑,如果一个项目接一个项目成功实施,就会越做越顺利,相反,如果连续失败几个项目,虚拟化就推行不下去了。

(以上内容节选自《深度实践KVM》一书)

好消息来啦

全球运维大会·上海站,将于10月31日举行,届时三大运维体系(精益运维、高效运维和白盒运维),将首度同台汇演。本次会议免费,如需报名或了解详情,请猛戳如下链接。

如何一起愉快地发展

尊重知识,请必须全文转载,并包括本行。

欢迎点击广告或赞赏,以鼓励我们做得更好。谢谢:)


以上是关于虚拟化项目的监控灾备及案例 | 肖力说KVM的主要内容,如果未能解决你的问题,请参考以下文章

虚拟化专家肖力:五年游戏虚拟化运维实践 |运维帮首发

KVM虚拟化集群技术概述

干货 | SSD在KVM虚拟化的测试和使用实践

部署KVM虚拟化平台

龙芯KVM虚拟化云平台案例解析

案例:部署kvm虚拟化平台