华为FusionCompute虚拟化平台升级操作文档
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了华为FusionCompute虚拟化平台升级操作文档相关的知识,希望对你有一定的参考价值。
华为FusionCompute虚拟化平台升级操作文档
一、问题分析与解决思路
问题描述:在一段时间内,FC平台中的多台CNA主机偶发性自动重启,随即导致主机中部署的虚拟机自动重启,严重影响线上业务。
解决方案:经研究,基本上排除了是服务器硬件问题导致的可能性,怀疑是FC虚拟化平台的问题。于是,收集了自动重启主机中的日志,提供给华为工程师分析,得出以下结论。
【日志收集方法】
(1)使用putty工具登录虚拟机所在的主机(以“gandalf”用户,通过管理IP地址登录,默认密码为[email protected]);
(2)执行su命令,并按提示输入“root”用户的密码,切换至“root”用户;
(3)执行TMOUT=0命令,防止“PuTTY”超时退出;
(4)(cp -r/var/log/CNA04/04/19 /home/GalaX8800/),注意CNA04为主机名,不同主机主机名不同,04为日期,此处以4日举例,19是4号19:00,还请根据实际告警产生日期修改;
(5)(chown -Rgandalf:GalaX8800 /home/GalaX8800/19);
(6)使用gandalf账户通过winscp登录主机,将目录/home/GalaX8800/19/拷贝出来并打包;
(7)拷贝完成后,请删除19目录(rm -r/home/GalaX8800/19/)
【日志分析结果】
Jun 4 20:00:02 CAN04 syslog-ng[5110]: Newconfiguration initialized;
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] xen_clocksource_read: 216918callbacks suppressed
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] clocksource/9: Time wentbackwards: ret=34873882edfc52 delta=-17243953 shadow=34873876d79440offset=c16ac2b
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] clocksource/9: Time wentbackwards: ret=34873882eeecea delta=-17239885 shadow=34873876d79440offset=c1759f6
Jun 4 20:00:02 CAN04 kernel: [14785708.976568] clocksource/3: Time wentbackwards: ret=34873883467f75 delta=-11500738 shadow=348738772ee0a9offset=c17a101
FusionCompute V100R006C00U1版本存在的问题一
【预警公告内容】
FusionSphere虚拟化平台TSC时钟回退造成CPU死锁问题预警
预警编号:EIT-P-B-201703
重要程度 | 重要 | 紧急程度 | 紧急 |
涉及产品 | FusionSphere | ||
涉及版本 | FusionCompute V100R006C00 FusionCompute V100R006C00U1 | ||
涉及应用 范围 | 时钟偏差超过10MS,系统频繁打印时钟回退日志。 | ||
发布时间 | 2017-1-16 | ||
预防要求 | 按本资料指导进行规避或根本解决。 | ||
参考工时 | 0.5人天 |
【问题描述】
上述涉及版本中,多核CPU服务器使用TSC时钟源,会概率触发时钟偏差。当不同CPU间的时钟偏差超过10MS,内核就会频繁打印时钟回退的日志。内核调度实时任务的处理逻辑存在因打印时钟回退日志造成CPU死锁的问题。
【触发概率】
涉及版本 | 触发条件 |
FusionCompute V100R006C00 FusionCompute V100R006C00U1 | 时钟偏差超过10MS,系统频繁打印时钟回退日志。 |
【影响风险】
频繁打印时钟回退日志,造成CPU出现低概率死锁,引起主机复位。
【问题判断】
使用gandalf用户登录CNA节点,切换到root用户,执行grep "Time went backwards" /var/log/messages命令,如果有回显,表示涉及此预警问题。如下截图表示没有回显,暂不涉及此预警。
【解决方案】
规避措施:
1、使用gandalf用户登录CNA节点,切换到root用户,执行命令:
echo 18446744073709551615 >/proc/sys/xen/permitted_clock_jitter
2、执行cat/proc/sys/xen/permitted_clock_jitter命令,如果回显信息如下截图,则表示规避
措施执行成功。
解决措施:
升级到FusionCompute V100R006C00U1SPC002版本
FusionCompute V100R006C00U1版本存在的问题二
【预警公告内容】
FusionSphere主机内存不足时批量部署模板虚拟机导致主机重启问题预警公告
预警编号:EIT-P-B-201704
重要程度 | 重要 | 紧急程度 | 紧急 |
涉及产品 | FusionSphere | ||
涉及版本 | FusionCompute V100R006C00 FusionCompute V100R006C00U1 | ||
涉及应用 范围 | 1、 有使用虚拟化SAN数据存储。 2、 主机内存可用内存不足。 | ||
发布时间 | 2017-1-16 | ||
预防要求 | 按本资料指导进行根本解决。 | ||
参考工时 | 0.5人天 |
【问题描述】
关联虚拟化数据存储的CNA节点在可用内存不足(<500M)的情况下,进行虚拟机模板部署等读/写大文件的动作时,就有概率导致主机因内核栈溢出发生重启。
【触发因素】
涉及版本 | 触发条件 |
FusionSphere V100R006C00所有版本 | 1、CNA节点关联虚拟化数据存储。 2、CNA节点可用内存不足。 3、模板部署/克隆虚拟机、虚拟机存储热/冷迁移等读/写大文件的动作。 |
【触发概率】
满足以上条件小概率触发。当dom0内存只有2U3G时,问题触发概率会增大。
【判断方法】
1. 是否有关联虚拟化SAN数据存储;
2. CNA节点内存不足(小于500M);
putty登陆每个CNA节点,使用free -m命令查询主机可用内存,如下图:
当上图红框的数值小于500时,就代表可用内存不足500M。
3. 满足上述2个条件,则进行模板部署/克隆虚拟机、虚拟机存储热/冷迁移、导出模板这些读/写大文件的动作可能触发该问题产生。
【影响风险】
主机重启,主机上的虚拟机发生HA。
【解决方案】
规避方案:
1、将dom0的内存规格调整到8U8G,重启主机生效。
2、实施本规避措施后问题触发概率较未实施规避措施前下降90%。
解决方案:
1、FusionComputeV100R006C00U1SPC002补丁版本解决该问题。
经过分析,FusionSphere虚拟化平台TSC时钟回退造成CPU死锁是导致本次主机重启的根本原因,临时的解决方法就是将系统的允许时钟偏差调大,但是此解决措施对FC平台存在的问题二不生效,根本的解决方法就是升级版本,尽快升级到SPC002+SPH001 ,先升级到SPC002,然后打上SPH001补丁。
二、升级方案
(1) 升级前准备
1.升级工具软件包已下载至本地
2.待安装补丁的部件软件包已下载至本地
3.待安装补丁部件的节点的浮动IP、管理IP、用户名及密码、端口信息已获取
4.操作系统为win7的本地PC机,保证不会进入睡眠或休眠状态
5.集群资源控制 > HA配置 > 接入控制”将“开启”去勾选
6.选择“IMC配置”查看“状态”是否为“已开启”,关闭非“停止”状态虚拟机
7.升级进行前管理数据备份,将备份路径下的数据拷贝至本地PC
8.升级工具的解压缩路径不能包含中文字符
9.请在启动升级工具前清空浏览器缓存
10.VRM节点在升级前需手动屏蔽ALM-15.1005009数据存储异常告警
11.将CNA01和CNA02上的业务虚拟机迁移至其他CAN,留下测试虚拟机
12.修改ntp服务器,解除VRM时间不同步告警
(2)升级流程图
三、FusionCompute V100R006C00U1SPC002版本升级具体操作
1. 升级工具:FusionToolV100R005C00SPC311 UpdateTool.zip
下载地址:http://support.huawei.com> 产品软件 > 运营商IT > 云计算数据中心 > FusionSphere> FusionTool > FusionTool V100R005C00SPC311
2. 升级软件包:FusionComputeV100R006C00U1SPC002_Upgrade.zip
下载地址:http://support.huawei.com> 产品软件 > 运营商IT > 云计算数据中心 > FusionSphere> FusionCompute > FusionCompute V100R006C00U1SPC002
3. 能连接FC平台网段的本地PC机
Windows XP、Windows 7、Windows 2003、Windows 2008和Windows 2012的32位或者64位操作系统
注:使用该PC机进行补丁安装的过程中,请确保该PC机不会进入“休眠”或“睡眠”状态
4. 分别解压升级工具和升级软件包至两个目录,解压路径不可包含中文
5. 启动升级工具
a.进入升级工具解压目录,双击start.ext运行升级工具,待出现以下提示“start servicesucceeded”,点击“OK”,此时会进入浏览器页面,但是仍无法加载到upgrade tool的登录界面。
b.第二步,打开windous的“运行”,输入“services.msc”进入服务管理,找到upgradetool项,单击右键,选择“启动”,待启动完成,刷新浏览器界面,即可打开upgradetool登录界面。
6. 登录upgradetool工具,初始登陆账号是admin,密码为“[email protected]!”
点击“新建升级过程”进入升级流程。
7. 升级节点类型选择,此处我们进行的是Fusioncompute平台的升级,要把VRM和CNA的升级创建在同一个工程中,因此,要同时勾选VRM项和CNA项。
8. 配置软件包路径,软件包路径需要填写绝对路径,点击“下一步”,工具会自动进行软件包校验,当提示软件包校验成功后,会自动进入下一步。
9. 升级节点信息配置,VRM部署方式选择“主备”,把主备VRM节点的信息按照要求填写,填写完成后进行“参数校验”,校验成功就可以“创建工程”了。
10. 创建工程后,节点拓扑显示在界面左侧的导航树中,先对主备VRM进行升级,第一步是分发软件包,勾选升级界面左侧导航栏中的主备VRM,同时进行软件包的分发,分发过程需要的时间大概为10分钟。
11. 软件包分发成功后,下一步是进行升级检查,同时勾选主备VRM,点击升级检查,此过程需要的时间大概为5分钟。
12. 升级检查成功后,就可以进行VRM升级了,同时勾选主备VRM,点击升级,升级过程中,主备VRM会自动重启(所有CNA主机以及部署在主机上的其他虚拟机均不会重启),此时不可以使用FC平台,整个升级过程需要时间大约为20~45分钟。
13. 升级完成后进行升级后检查。 VRM为主备部署时,主备节点均补丁安装成功后,如果在升级工具上VRM主备均显示为备状态,请刷新升级工具页面重新获取VRM主备状态,直到VRM主备状态正确(如果超过三分钟VRM主备节点仍均显示为备状态,请联系华为技术支持)。
14. 至此,VRM的升级操作完成。
15. VRM升级完成之后,需要对CNA升级,CNA的升级顺序是:备VRM所在的CNA(CNA01)——>其他CNA(CNA03-07)——>主VRM所在的CNA(CNA02)。
16. 首先,勾选左侧导航栏的所有CNA节点(也可以分批进行),进行软件包的分发,此过程大约需要10分钟。
17. 软件包方法完毕,勾选左侧导航栏的所有CNA节点(也可以分批进行),进行升级前检查,此过程大约需要5分钟。
18. 对CNA01(备VRM节点)进行升级,升级方式包括离线模式和在线模式,如果不可以停虚拟机(线上业务不中断)就选择在线模式,如果可以停虚拟机,就选择离线模式。在线模式升级有前提条件:CNA主机上不存在存储为本地硬盘的虚拟机,虚拟机tools已启用,主机的CPU和内存足够。离线模式比在线模式简单(将所有虚拟机关闭即可),升级安全系数更高一点。
离线模式
1、手动关闭
用户需要在FusionCompute上手动关闭升级主机节点上的除VRM之外所有虚拟机(如果VRM为虚拟化部署,工具会自动关闭VRM虚拟机),升级完成后需要在FusionCompute上手动启动关闭的虚拟机(VRM为虚拟化部署时,如果VRM虚拟机为工具自动关闭将会在主机升级后自动被工具拉起。需要等VRM虚拟机启动成功后再做其他升级动作)。
2、自动关闭
工具将自动关闭升级主机上的所有虚拟机,升级完成后,工具会在主机升级后尝试自动启动已经关闭的虚拟机,如果存在启动失败的情况,则需要手动在FusionCompute上启动虚拟机(如果VRM为虚拟化部署,需要等VRM虚拟机启动成功后再做其他升级动作)。
3、冷迁移
说明:
冷迁移模式将由工具自动关闭升级主机上的虚拟机,并快速在其他主机上启动。
在选择冷迁移模式下,选择当冷迁移失败时是否继续升级。
在线模式
自动迁移所选CNA上的全部虚拟机,如果系统中存在部分虚拟机不能迁移(如绑定主机、存储为本地硬盘、绑定图形处理器、绑定USB设备,没有安装PV Driver等不能进行迁移),请选择是否关闭虚拟机,如果“是”,升级工具会自动关闭不能迁移的虚拟机并进行后续升级操作;选择“否”,升级工具不会关闭虚拟机但是会继续升级,有未关闭的虚拟机节点会置为失败状态;本次操作过程中,工具会自动将所选CNA进入维护模式,升级完成之后自动退出。(如果VRM为虚拟化部署,VRM虚拟机无需处理,工具会自动关闭VRM虚拟机,如果VRM为工具自动关闭将会在主机升级后自动拉起。需要等VRM虚拟机启动成功后再做其他升级动作)。
19. 线上业务不能停止,因此本次升级选择的是在线模式。在线模式有“检测是否存在不可迁移的虚拟机”选项,点击即可进行检测,若存在不可迁移的虚拟机,会出一张excl表,打开可看到不可迁移的虚拟机ID以及不可迁移的原因。注意,VRM虽然是不可迁移的,但是它不算是“存在的不可迁移虚拟机”,主机会对VRM进行自动重启。
20. 确认无不可迁移的主机后,可继续进行升级,首先,upgradetool会自动迁空主机,这一步不会算在升级时间内,迁移虚拟机的时间最长为11分钟,超过这个时间就会显示迁移失败。迁空主机后,即进入升级步骤,升级过程中(到56%左右)CNA主机会进行重启,升级时间在25~45分钟内,超时则升级失败,主机需要进行回退。
注:CNA主机升级完成后先不要急着进行操作,因为主机可能会再次重启,等待5~10分钟,主机运行稳定后再做后续操作。
附: 主机回退流程,回退时间耗时40分钟
21. 升级其他CNA主机,重复执行步骤16~步骤20,可分批进行,也可同时进行(不超过256个节点主机)。分批进行较为安全,同时进行升级较为省时,但是要考虑主机的负载情况。
22. 最后升级CNA02(主VRM),升级步骤和其他CNA相同。不同的是,升级之前升级工具会自动先将VRM进行主备倒换,这是为了确保整个升级过程都能在FC平台监控下进行,VRM主备倒换大约需要5分钟,之后即可继续使用平台进行操作或监控。
23. 升级完成后,观察2天,2天后平台运行无异样,即可再次登录升级工具,点击提交工程,提交工程完成后,点击结束工程。
24.FusionComputeV100R006C00U1SPC002版本升级完成。
附: 本次升级过程中遇到问题及解决方法
1.
问题:升级前准备工作,FC平台告警VRM与ntp服务器同步异常
解决方法:找一个精确的外部时钟源,将主VRM所在的CNA(CNA02)手动与之同步时间,之后,将CNA02设置为内部时钟源。登录到CNA02,执行以下命令将节点的NTP时钟源设置为该节点本身:perl/opt/galax/gms/common/config/configNtp.pl-ntpip 127.0.0.1 -cycle 6 -timezone Asia/Shanghai(当地时区) -force true 等待3分钟后,执行ntpq -p命令
显示类似如下信息:
remote refid st t when poll reach delay offset jitter
==========================================================================
*LOCAL(0) .LOCL. 5 l 58 64 377 0.000 0.000 0.001
查看“LOCAL”前是否已有“*”号,表示节点时间服务已正常,可作为NTP时钟源,如果还未出现“*”号,需要等待5~10分钟,再次执行ntpq -p命令查看时 间服务状态。
内部时钟源设置好之后,即可更改FC平台的ntp服务设置,将ntp服务器ip填写CNA02的ip地址,保存之后,FC服务会进行重启(不会任何重启虚拟机和CNA),这个过程将无法使用FC平台,持续时间大约5分钟。FC服务重启完成后,登陆平台,查看告警“VRM与ntp服务器同步异常”是否正常清除,提示正常清除后说明ntp服务配置成功。
2.
问题:虚拟机存储为本地硬盘(虚拟化,精简配置),无法进行自动迁移虚拟机,也无法将数据迁移到挂载的存储上,因为挂载的存储空间不够。
解决方法: 再临时挂载一个共享存储到此CNA主机,手动将数据迁移到此共享存储上即可。
3.
问题:进行热升级时,自动迁移CNA主机上的虚拟机失败,提示“VRM与ntp服务器同步异常”。虚拟机通过工具的自动迁移,资源调度不合理,致4台虚拟机重启,线上业务中断。
解决方法: 在升级工程中,可通过手动热迁移虚拟机到资源充足的CNA主机上,这样就不会再出现资源利用不合理的问题。
4.
问题:虚拟机手动迁移,FC平台显示迁移成功,但虚拟机死机,VNC也无法登录。
解决方法:马上通过FC平台的强制重启功能进行重启(相当于断电重启),迅速恢复服务器的应用,将业务影响降到最低。后续解决方法是通过创建虚拟机快照,防止虚拟机崩溃后无法恢复。
5.
问题:tools工具未运行,启动此服务提示tools需要在xxxx-xx-x内核版本下运行,导致无法进行热迁移。uvp-monitor需要运行在tools安装时的系统内核版本下,一旦linux系统内核升级(自动升级,可关闭),tools将无法运行。同时,卸载tools的操作也要回退到之前的内核版本中才能执行。这意味着需要重启虚拟机。
解决方法:热迁移操作无法进行,只能选择在服务器业务量少的时候进行停机,再对CNA进行升级操作。
6.
问题:VRM主备倒换后,FC平台告警DNS配置不可用,同时,只可以在内网登录FC平台,外网始终无法登录。外网无法ping通主VRM(VRM01)。
解决方法:通过检测分析,很有可能是VRM01的网络配置出了问题。VNC登录VRM,发现路由表中缺少网关配置,手动添加一条默认路由,网络问题解决,DNS告警正常清除。
7.
问题:迁移磁盘时速率和虚拟机压力问题。
解决方法:磁盘迁移时可以选择迁移速度,有适合、较快、不限速三个选项,适合耗用资源最少,基本上不影响虚拟机上的业务运行,但是速度很慢,1T容量(精简配置)的磁盘需要迁移12小时。较快选项会造成虚拟机压力过大,影响业务运行的情况,但是迁移速度大大加快,比适合选项的速度快5倍以上,可选择业务量少的时候执行。不限速的选项不宜用在业务机上。
8.
问题:VPN不稳定。
解决方法:升级过程中,始终要保持网络畅通。防止网络中断的最好方法就是到现场机房,用网线直接连接交换机再进行升级操作。
四、FusionCompute_V100R006C00U1SPH001升级具体操作
流程图
1. 升级工具FusionTool V100R005C00SPC511 UpdateTool.zip
下载路径:
http://support.huawei.com > 产品软件 > 运营商IT > 云计算数据中心 >FusionSphere > FusionTool > FusionTool V100R005C00SPC511
2. 升级补丁包FusionCompute V100R006C00U1SPH001_Upgrade.zip
下载路径:
http://support.huawei.com> 产品软件 > 运营商IT > 云计算数据中心 > FusionSphere >FusionCompute > FusionCompute V100R006C00U1SPH001
3. SPH001补丁包的升级过程与SPC002升级过程相同,只是不必进行VRM的升级了。并且,安装SPH001补丁包不需要重启CNA主机和虚拟机,也就不区分升级模式了,统一为热升级模式。升级过程中不会对业务造成任何影响。
4. 升级后验证
a. 查看CAN版本,打开每个CAN节点查看 UVP 版本信息,升级安装成功后的 DOM0 的版本号是 V200R002C00SPH780B010。
cat/etc/uvp_version | grep "patch_version="
b. 验证创建虚拟机、设置高级属性、迁移虚拟机、删除虚拟机等功能是否能正常执行
5. 验证无误后,即可提交工程——>结束工程
6. FusionCompute_V100R006C00U1SPH001升级完成。
五、结束
SPC002+SPH001升级成功,整个升级操作结束。
本文出自 “12400094” 博客,转载请与作者联系!
以上是关于华为FusionCompute虚拟化平台升级操作文档的主要内容,如果未能解决你的问题,请参考以下文章
FIT2CLOUD飞致云旗下多云管理平台完成华为FusionCompute兼容性测试
vSphere5.5中嵌套华为FusionCompute注意要点