华为FusionCompute虚拟化平台升级操作文档

Posted 2020-10-06

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了华为FusionCompute虚拟化平台升级操作文档相关的知识，希望对你有一定的参考价值。

华为FusionCompute虚拟化平台升级操作文档

一、问题分析与解决思路

问题描述:在一段时间内，FC平台中的多台CNA主机偶发性自动重启，随即导致主机中部署的虚拟机自动重启，严重影响线上业务。

解决方案：经研究，基本上排除了是服务器硬件问题导致的可能性，怀疑是FC虚拟化平台的问题。于是，收集了自动重启主机中的日志，提供给华为工程师分析，得出以下结论。

【日志收集方法】

（1）使用putty工具登录虚拟机所在的主机（以“gandalf”用户，通过管理IP地址登录，默认密码为[email protected]）；

（2）执行su命令，并按提示输入“root”用户的密码，切换至“root”用户；

（3）执行TMOUT=0命令，防止“PuTTY”超时退出；

（4）(cp -r/var/log/CNA04/04/19 /home/GalaX8800/)，注意CNA04为主机名，不同主机主机名不同，04为日期，此处以4日举例，19是4号19:00，还请根据实际告警产生日期修改；

（5）(chown -Rgandalf:GalaX8800 /home/GalaX8800/19)；

（6）使用gandalf账户通过winscp登录主机，将目录/home/GalaX8800/19/拷贝出来并打包；

（7）拷贝完成后，请删除19目录（rm -r/home/GalaX8800/19/）

【日志分析结果】

Jun 4 20:00:02 CAN04 syslog-ng[5110]: Newconfiguration initialized;
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] xen_clocksource_read: 216918callbacks suppressed
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] clocksource/9: Time wentbackwards: ret=34873882edfc52 delta=-17243953 shadow=34873876d79440offset=c16ac2b
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] clocksource/9: Time wentbackwards: ret=34873882eeecea delta=-17239885 shadow=34873876d79440offset=c1759f6
Jun 4 20:00:02 CAN04 kernel: [14785708.976568] clocksource/3: Time wentbackwards: ret=34873883467f75 delta=-11500738 shadow=348738772ee0a9offset=c17a101

FusionCompute V100R006C00U1版本存在的问题一

【预警公告内容】

FusionSphere虚拟化平台TSC时钟回退造成CPU死锁问题预警

预警编号：EIT-P-B-201703

重要程度	重要	紧急程度	紧急
涉及产品	FusionSphere
涉及版本	FusionCompute V100R006C00 FusionCompute V100R006C00U1
涉及应用范围	时钟偏差超过10MS，系统频繁打印时钟回退日志。
发布时间	2017-1-16
预防要求	按本资料指导进行规避或根本解决。
参考工时	0.5人天

【问题描述】

上述涉及版本中，多核CPU服务器使用TSC时钟源，会概率触发时钟偏差。当不同CPU间的时钟偏差超过10MS，内核就会频繁打印时钟回退的日志。内核调度实时任务的处理逻辑存在因打印时钟回退日志造成CPU死锁的问题。

【触发概率】

涉及版本

触发条件

FusionCompute V100R006C00

FusionCompute V100R006C00U1

时钟偏差超过10MS，系统频繁打印时钟回退日志。

【影响风险】

频繁打印时钟回退日志，造成CPU出现低概率死锁，引起主机复位。

【问题判断】

使用gandalf用户登录CNA节点，切换到root用户，执行grep "Time went backwards" /var/log/messages命令，如果有回显，表示涉及此预警问题。如下截图表示没有回显，暂不涉及此预警。

【解决方案】

规避措施：

1、使用gandalf用户登录CNA节点，切换到root用户，执行命令：

echo 18446744073709551615 >/proc/sys/xen/permitted_clock_jitter

2、执行cat/proc/sys/xen/permitted_clock_jitter命令，如果回显信息如下截图，则表示规避

措施执行成功。

解决措施：

升级到FusionCompute V100R006C00U1SPC002版本

FusionCompute V100R006C00U1版本存在的问题二

【预警公告内容】

FusionSphere主机内存不足时批量部署模板虚拟机导致主机重启问题预警公告

预警编号：EIT-P-B-201704

重要程度	重要	紧急程度	紧急
涉及产品	FusionSphere
涉及版本	FusionCompute V100R006C00 FusionCompute V100R006C00U1
涉及应用范围	1、有使用虚拟化SAN数据存储。 2、主机内存可用内存不足。
发布时间	2017-1-16
预防要求	按本资料指导进行根本解决。
参考工时	0.5人天

【问题描述】

关联虚拟化数据存储的CNA节点在可用内存不足(<500M)的情况下，进行虚拟机模板部署等读/写大文件的动作时，就有概率导致主机因内核栈溢出发生重启。

【触发因素】

涉及版本

触发条件

FusionSphere V100R006C00所有版本

1、CNA节点关联虚拟化数据存储。

2、CNA节点可用内存不足。

3、模板部署/克隆虚拟机、虚拟机存储热/冷迁移等读/写大文件的动作。

【触发概率】

满足以上条件小概率触发。当dom0内存只有2U3G时，问题触发概率会增大。

【判断方法】

1. 是否有关联虚拟化SAN数据存储；

2. CNA节点内存不足(小于500M)；

putty登陆每个CNA节点，使用free -m命令查询主机可用内存，如下图：

当上图红框的数值小于500时，就代表可用内存不足500M。

3. 满足上述2个条件，则进行模板部署/克隆虚拟机、虚拟机存储热/冷迁移、导出模板这些读/写大文件的动作可能触发该问题产生。

【影响风险】

主机重启，主机上的虚拟机发生HA。

【解决方案】

规避方案：

1、将dom0的内存规格调整到8U8G，重启主机生效。

2、实施本规避措施后问题触发概率较未实施规避措施前下降90%。

解决方案：

1、FusionComputeV100R006C00U1SPC002补丁版本解决该问题。

经过分析，FusionSphere虚拟化平台TSC时钟回退造成CPU死锁是导致本次主机重启的根本原因，临时的解决方法就是将系统的允许时钟偏差调大，但是此解决措施对FC平台存在的问题二不生效，根本的解决方法就是升级版本，尽快升级到SPC002+SPH001 ，先升级到SPC002，然后打上SPH001补丁。

二、升级方案

(1) 升级前准备

1.升级工具软件包已下载至本地

2.待安装补丁的部件软件包已下载至本地

3.待安装补丁部件的节点的浮动IP、管理IP、用户名及密码、端口信息已获取

4.操作系统为win7的本地PC机，保证不会进入睡眠或休眠状态

5.集群资源控制 > HA配置 > 接入控制”将“开启”去勾选

6.选择“IMC配置”查看“状态”是否为“已开启”,关闭非“停止”状态虚拟机

7.升级进行前管理数据备份，将备份路径下的数据拷贝至本地PC

8.升级工具的解压缩路径不能包含中文字符

9.请在启动升级工具前清空浏览器缓存

10.VRM节点在升级前需手动屏蔽ALM-15.1005009数据存储异常告警

11.将CNA01和CNA02上的业务虚拟机迁移至其他CAN，留下测试虚拟机

12.修改ntp服务器，解除VRM时间不同步告警

(2)升级流程图

三、FusionCompute V100R006C00U1SPC002版本升级具体操作

1. 升级工具：FusionToolV100R005C00SPC311 UpdateTool.zip

下载地址：http://support.huawei.com> 产品软件 > 运营商IT > 云计算数据中心 > FusionSphere> FusionTool > FusionTool V100R005C00SPC311

2. 升级软件包：FusionComputeV100R006C00U1SPC002_Upgrade.zip

下载地址：http://support.huawei.com> 产品软件 > 运营商IT > 云计算数据中心 > FusionSphere> FusionCompute > FusionCompute V100R006C00U1SPC002

3. 能连接FC平台网段的本地PC机

Windows XP、Windows 7、Windows 2003、Windows 2008和Windows 2012的32位或者64位操作系统

注：使用该PC机进行补丁安装的过程中，请确保该PC机不会进入“休眠”或“睡眠”状态

4. 分别解压升级工具和升级软件包至两个目录，解压路径不可包含中文

5. 启动升级工具

a.进入升级工具解压目录，双击start.ext运行升级工具，待出现以下提示“start servicesucceeded”，点击“OK”，此时会进入浏览器页面，但是仍无法加载到upgrade tool的登录界面。

b.第二步，打开windous的“运行”，输入“services.msc”进入服务管理，找到upgradetool项，单击右键，选择“启动”，待启动完成，刷新浏览器界面，即可打开upgradetool登录界面。

6. 登录upgradetool工具，初始登陆账号是admin,密码为“[email protected]!”

点击“新建升级过程”进入升级流程。

7. 升级节点类型选择，此处我们进行的是Fusioncompute平台的升级，要把VRM和CNA的升级创建在同一个工程中，因此，要同时勾选VRM项和CNA项。

8. 配置软件包路径，软件包路径需要填写绝对路径，点击“下一步”，工具会自动进行软件包校验，当提示软件包校验成功后，会自动进入下一步。

9. 升级节点信息配置，VRM部署方式选择“主备”，把主备VRM节点的信息按照要求填写，填写完成后进行“参数校验”，校验成功就可以“创建工程”了。

10. 创建工程后，节点拓扑显示在界面左侧的导航树中，先对主备VRM进行升级，第一步是分发软件包，勾选升级界面左侧导航栏中的主备VRM，同时进行软件包的分发，分发过程需要的时间大概为10分钟。

11. 软件包分发成功后，下一步是进行升级检查，同时勾选主备VRM，点击升级检查，此过程需要的时间大概为5分钟。

12. 升级检查成功后，就可以进行VRM升级了，同时勾选主备VRM，点击升级，升级过程中，主备VRM会自动重启（所有CNA主机以及部署在主机上的其他虚拟机均不会重启），此时不可以使用FC平台，整个升级过程需要时间大约为20~45分钟。

13. 升级完成后进行升级后检查。 VRM为主备部署时，主备节点均补丁安装成功后，如果在升级工具上VRM主备均显示为备状态，请刷新升级工具页面重新获取VRM主备状态，直到VRM主备状态正确(如果超过三分钟VRM主备节点仍均显示为备状态，请联系华为技术支持)。

14. 至此，VRM的升级操作完成。

15. VRM升级完成之后，需要对CNA升级，CNA的升级顺序是:备VRM所在的CNA（CNA01）——>其他CNA(CNA03-07)——>主VRM所在的CNA(CNA02)。

16. 首先，勾选左侧导航栏的所有CNA节点（也可以分批进行），进行软件包的分发，此过程大约需要10分钟。

17. 软件包方法完毕，勾选左侧导航栏的所有CNA节点（也可以分批进行），进行升级前检查，此过程大约需要5分钟。

18. 对CNA01（备VRM节点）进行升级，升级方式包括离线模式和在线模式，如果不可以停虚拟机（线上业务不中断）就选择在线模式，如果可以停虚拟机，就选择离线模式。在线模式升级有前提条件：CNA主机上不存在存储为本地硬盘的虚拟机，虚拟机tools已启用，主机的CPU和内存足够。离线模式比在线模式简单（将所有虚拟机关闭即可），升级安全系数更高一点。

离线模式

1、手动关闭

用户需要在FusionCompute上手动关闭升级主机节点上的除VRM之外所有虚拟机(如果VRM为虚拟化部署，工具会自动关闭VRM虚拟机）,升级完成后需要在FusionCompute上手动启动关闭的虚拟机(VRM为虚拟化部署时，如果VRM虚拟机为工具自动关闭将会在主机升级后自动被工具拉起。需要等VRM虚拟机启动成功后再做其他升级动作)。

2、自动关闭

工具将自动关闭升级主机上的所有虚拟机，升级完成后，工具会在主机升级后尝试自动启动已经关闭的虚拟机，如果存在启动失败的情况，则需要手动在FusionCompute上启动虚拟机(如果VRM为虚拟化部署，需要等VRM虚拟机启动成功后再做其他升级动作)。

3、冷迁移

说明：

冷迁移模式将由工具自动关闭升级主机上的虚拟机，并快速在其他主机上启动。

在选择冷迁移模式下，选择当冷迁移失败时是否继续升级。

在线模式

自动迁移所选CNA上的全部虚拟机，如果系统中存在部分虚拟机不能迁移(如绑定主机、存储为本地硬盘、绑定图形处理器、绑定USB设备，没有安装PV Driver等不能进行迁移)，请选择是否关闭虚拟机，如果“是”，升级工具会自动关闭不能迁移的虚拟机并进行后续升级操作；选择“否”，升级工具不会关闭虚拟机但是会继续升级，有未关闭的虚拟机节点会置为失败状态；本次操作过程中，工具会自动将所选CNA进入维护模式，升级完成之后自动退出。(如果VRM为虚拟化部署，VRM虚拟机无需处理，工具会自动关闭VRM虚拟机，如果VRM为工具自动关闭将会在主机升级后自动拉起。需要等VRM虚拟机启动成功后再做其他升级动作)。

19. 线上业务不能停止，因此本次升级选择的是在线模式。在线模式有“检测是否存在不可迁移的虚拟机”选项，点击即可进行检测，若存在不可迁移的虚拟机，会出一张excl表，打开可看到不可迁移的虚拟机ID以及不可迁移的原因。注意，VRM虽然是不可迁移的，但是它不算是“存在的不可迁移虚拟机”，主机会对VRM进行自动重启。

20. 确认无不可迁移的主机后，可继续进行升级，首先，upgradetool会自动迁空主机，这一步不会算在升级时间内，迁移虚拟机的时间最长为11分钟，超过这个时间就会显示迁移失败。迁空主机后，即进入升级步骤，升级过程中（到56%左右）CNA主机会进行重启，升级时间在25~45分钟内，超时则升级失败，主机需要进行回退。

注：CNA主机升级完成后先不要急着进行操作，因为主机可能会再次重启，等待5~10分钟，主机运行稳定后再做后续操作。

附: 主机回退流程，回退时间耗时40分钟

21. 升级其他CNA主机，重复执行步骤16~步骤20，可分批进行，也可同时进行（不超过256个节点主机）。分批进行较为安全，同时进行升级较为省时，但是要考虑主机的负载情况。

22. 最后升级CNA02(主VRM)，升级步骤和其他CNA相同。不同的是，升级之前升级工具会自动先将VRM进行主备倒换，这是为了确保整个升级过程都能在FC平台监控下进行，VRM主备倒换大约需要5分钟，之后即可继续使用平台进行操作或监控。

23. 升级完成后，观察2天，2天后平台运行无异样，即可再次登录升级工具，点击提交工程，提交工程完成后，点击结束工程。

24.FusionComputeV100R006C00U1SPC002版本升级完成。

附: 本次升级过程中遇到问题及解决方法

问题：升级前准备工作，FC平台告警VRM与ntp服务器同步异常

解决方法：找一个精确的外部时钟源，将主VRM所在的CNA（CNA02）手动与之同步时间，之后，将CNA02设置为内部时钟源。登录到CNA02,执行以下命令将节点的NTP时钟源设置为该节点本身：perl/opt/galax/gms/common/config/configNtp.pl-ntpip 127.0.0.1 -cycle 6 -timezone Asia/Shanghai(当地时区) -force true 等待3分钟后，执行ntpq -p命令

显示类似如下信息：

remote refid st t when poll reach delay offset jitter

==========================================================================

*LOCAL(0) .LOCL. 5 l 58 64 377 0.000 0.000 0.001

查看“LOCAL”前是否已有“*”号，表示节点时间服务已正常，可作为NTP时钟源,如果还未出现“*”号，需要等待5～10分钟，再次执行ntpq -p命令查看时间服务状态。

内部时钟源设置好之后，即可更改FC平台的ntp服务设置，将ntp服务器ip填写CNA02的ip地址，保存之后，FC服务会进行重启（不会任何重启虚拟机和CNA），这个过程将无法使用FC平台，持续时间大约5分钟。FC服务重启完成后，登陆平台，查看告警“VRM与ntp服务器同步异常”是否正常清除，提示正常清除后说明ntp服务配置成功。

问题：虚拟机存储为本地硬盘（虚拟化，精简配置），无法进行自动迁移虚拟机，也无法将数据迁移到挂载的存储上，因为挂载的存储空间不够。

解决方法: 再临时挂载一个共享存储到此CNA主机，手动将数据迁移到此共享存储上即可。

问题：进行热升级时，自动迁移CNA主机上的虚拟机失败，提示“VRM与ntp服务器同步异常”。虚拟机通过工具的自动迁移，资源调度不合理，致4台虚拟机重启，线上业务中断。

解决方法: 在升级工程中，可通过手动热迁移虚拟机到资源充足的CNA主机上，这样就不会再出现资源利用不合理的问题。

问题：虚拟机手动迁移，FC平台显示迁移成功，但虚拟机死机，VNC也无法登录。

解决方法：马上通过FC平台的强制重启功能进行重启(相当于断电重启)，迅速恢复服务器的应用，将业务影响降到最低。后续解决方法是通过创建虚拟机快照，防止虚拟机崩溃后无法恢复。

问题：tools工具未运行，启动此服务提示tools需要在xxxx-xx-x内核版本下运行，导致无法进行热迁移。uvp-monitor需要运行在tools安装时的系统内核版本下，一旦linux系统内核升级(自动升级，可关闭)，tools将无法运行。同时，卸载tools的操作也要回退到之前的内核版本中才能执行。这意味着需要重启虚拟机。

解决方法：热迁移操作无法进行，只能选择在服务器业务量少的时候进行停机，再对CNA进行升级操作。

问题：VRM主备倒换后，FC平台告警DNS配置不可用，同时，只可以在内网登录FC平台，外网始终无法登录。外网无法ping通主VRM(VRM01)。

解决方法：通过检测分析，很有可能是VRM01的网络配置出了问题。VNC登录VRM，发现路由表中缺少网关配置，手动添加一条默认路由，网络问题解决,DNS告警正常清除。

问题：迁移磁盘时速率和虚拟机压力问题。

解决方法：磁盘迁移时可以选择迁移速度，有适合、较快、不限速三个选项，适合耗用资源最少，基本上不影响虚拟机上的业务运行，但是速度很慢，1T容量（精简配置）的磁盘需要迁移12小时。较快选项会造成虚拟机压力过大，影响业务运行的情况，但是迁移速度大大加快，比适合选项的速度快5倍以上，可选择业务量少的时候执行。不限速的选项不宜用在业务机上。

问题：VPN不稳定。

解决方法：升级过程中，始终要保持网络畅通。防止网络中断的最好方法就是到现场机房，用网线直接连接交换机再进行升级操作。

四、FusionCompute_V100R006C00U1SPH001升级具体操作

流程图