生产环境 SR650服务器硬盘故障应急处理过程
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了生产环境 SR650服务器硬盘故障应急处理过程相关的知识,希望对你有一定的参考价值。
1.故障描述
2021年某日,巡检发现生产环境服务器Slot3硬盘告警(1.2T SAS 2.5英寸,FRU:00YK016),当日报修。
第二天一早,联想工程师上门更换。拔下故障盘,插入带来的新备件,发现故障Slot 3盘故障依旧。登录带外管理查看,如下图:
点击阵列卡配置及硬盘部件详情,均无法看到相关信息:
2.处理过程
1、收集Service Data发联想技术支持,联想CAG工程师回复需要升级阵列卡微码解决。因有风险,故和业务协商停机时间,定于xx月12日18:00-xx月13日 12:00。
2、xx月12日18:00,用Windows Server Backup对该服务器执行一次整机备份,备份到移动硬盘。
3、备份完成后,在操作系统内直接执行阵列卡微码升级程序,提示升级成功。
4、重启服务器,正常引导后带外已经能正常看到阵列配置和磁盘详情。但除Slot3告警依旧外,Slot6硬盘(与Slot3同规格)也出现告警。因不在同一个span,所以数据暂无影响。
5、升级UEFI,升级XCC到最新版本;故障依旧。
6、联想CAG指示把机器彻底下电,拔掉阵列卡,重新上电;上述操作执行后,故障依旧。
7、按CAG指示收集调试日志,两次均卡在99%,等待时间过长且硬盘灯、鼠标已无响应,遂放弃。
8、开机到带外管理收集Service Data,因已经能看到硬盘详情,CAG回复是硬盘固件版本过低导致,要求升级固件:
9、个人检查发现,Slot 3其实此时处于Normal但Unconfiguration Bad、且带Foreign信息,在带外管理直接把Slot 3清除Foreign(外部阵列)信息并Make UGood,重启机器触发阵列检查,Slot 3开始正常Rebuild。
10、登入操作系统,升级硬盘微码至L1B9,均成功。重启系统(彻底断电),故障依旧。
11、再次收集ServiceData,发现Slot6确实存在错误计数。
12、和联想售后沟通后就Slot 6重新报障,更换后等待同步完成后,告警消除。
3.总结与教训
1、关键部件固件、微码尽量保持官方建议的版本。
2、升级UEFI/阵列卡微码,涉及底层报警阀值及风险预测机制,此前没有报警的部件可能会在升级后报警。故升级UEFI及固件前最好做好数据备份,以规避因升级触发同一个VD两个或更多成员盘同时告警的极端情况。
3、条件允许情况下,数据备份尽量完整。
4、对于官方、原厂技术支持的说法和建议,要有自行评估的能力。
以上是关于生产环境 SR650服务器硬盘故障应急处理过程的主要内容,如果未能解决你的问题,请参考以下文章
windows 2008 R2+SQL 2008 R2 集群故障处理