盘Linux服务端的测试及故障处理办法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了盘Linux服务端的测试及故障处理办法相关的知识,希望对你有一定的参考价值。

参考技术A

  盘Linux服务端的测试及故障处理办法

  1、查看系统负载情况

  在服务端命令窗口下执行w命令可得到三组数据(例如 0.40 0.30 1.20),分别为系统前一分钟、前5分钟、前15分钟负载情况,一般负载情况在2以下基本正常,如果长时间高于3则可认为系统负载过高,重点检查硬盘工作状况。

  2、测试各硬盘读取速度判断硬盘故障

  在服务端命令窗口中执行如下命令

  hdparm -t /dev/hda (IDE硬盘)

  hdparm -t /dev/sda (SATA、SCSI、硬RAID卡阵列)

  hdparm -t /dev/md0 (软RAID设备)

  测试结果在空载情况下应 >40M/s ,在负载情况下平均应 > 20M/s 为正常,如测试结果极低则需要进一步使用硬盘专用检测工具测试是否为硬盘故障。

  3、处理网络盘上数据无法正常读写问题

  当在客户机上启动执行网络盘上游戏经常出现异常错误时,很可能是网络盘上的文件系统或数据出现损坏,可使用如下办法尝试修复。

  在一台客户机上登陆为超级工作站连接网络盘,例如网络盘为H:,在DOS命令窗口下执行 chkdsk H:/F 对网络盘文件系统进行检查修复,修复完成后重新启动客户机看修复是否起到相应的作用,如故障依旧则考虑对网络盘重新格式化拷贝数据。

   4、客户端无法连接网络盘的情况处理

  有新的机器名需要连接网络磁盘时必须开启服务端虚拟磁盘管理器窗口

  当服务器出现非法关机重启的情况时,很可能出现虚拟磁盘网络服务没有正常启动导致客户端无法连接网络磁盘,此时正常重新启动服务器或在命令行窗口下执行 landisk restart 来启动虚拟磁盘服务解决。

  网众虚拟磁盘客户机系统还原功能失效情况的处理办法

  a、分区或全盘恢复还原失效的客户机系统。

  b、在服务器端虚拟磁盘管理器中删除还原失效的客户机。

  c、客户机重新连接服务器,设置还原即可。

  网众虚拟网络磁盘如何在没有盘符时进行磁盘扫描

  a.在服务器上运行命令cmd,进入命令行状态

  b.运行cd (这是方便生成的文件直接存放在c:目录下)

  c.运行mountvol > 1.bat (这会生成一个名为1.bat的批处理文件。)

  d.将1.bat复制到桌面上。

  e.编辑1.bat

  找到 ?Volume01847d10-ae98-11d9-a5d6-806d6172696f

  无加载点

  无加载点的这行的上面就是去掉了盘符的\'盘的磁盘卷标。保留这一行内容其它的全部删除掉。

  f.最后生成留下的文件应该如下面的格式

  chkdsk/f ?Volume01847d10-ae98-11d9-a5d6-806d6172696f

  要注意啊!一定要chkdsk/f要加上f参数,才能真正修复,还有磁盘卷标的最后一个字符不是 而生成的文件是带了的,要把它删除掉。

  最后说说什么时候才能用这个批处理进行扫描

  a.当你发现在用超级用户更新之后,有的机看得到网络磁盘,有的机看不到网络磁盘,或者是打得开盘却看不到内容不得时,可以使用。

  b.当服务器重新启动时,提示有磁盘扫描,并自动进行扫描时,本来以前是必须要等这个扫描过程完成才能进入WINDOWS,但现在你就可以直接跳过扫描,等系统进了WINDOWS再运行这个批处理了。这样就不会影响到客人玩游戏。

  c.磁盘扫描完成之后,客户机有可能要重新启动才能正常看到网络盘的文件。

  d.一定要注意,这是一个非常危险的命令,你在使用时必须要保证没有超级用户存在(就是标记为红色的电脑)否则有可能造游戏盘上所有的文件丢失得一干二净!

生产环境 SR650服务器硬盘故障应急处理过程

1.故障描述

2021年某日,巡检发现生产环境服务器Slot3硬盘告警(1.2T SAS 2.5英寸,FRU:00YK016),当日报修。

第二天一早,联想工程师上门更换。拔下故障盘,插入带来的新备件,发现故障Slot 3盘故障依旧。登录带外管理查看,如下图:

生产环境

生产环境

点击阵列卡配置及硬盘部件详情,均无法看到相关信息:

生产环境

2.处理过程

1、收集Service Data发联想技术支持,联想CAG工程师回复需要升级阵列卡微码解决。因有风险,故和业务协商停机时间,定于xx月12日18:00-xx月13日 12:00。

2、xx月12日18:00,用Windows Server Backup对该服务器执行一次整机备份,备份到移动硬盘。

3、备份完成后,在操作系统内直接执行阵列卡微码升级程序,提示升级成功。

4、重启服务器,正常引导后带外已经能正常看到阵列配置和磁盘详情。但除Slot3告警依旧外,Slot6硬盘(与Slot3同规格)也出现告警。因不在同一个span,所以数据暂无影响。

5、升级UEFI,升级XCC到最新版本;故障依旧。

6、联想CAG指示把机器彻底下电,拔掉阵列卡,重新上电;上述操作执行后,故障依旧。

生产环境

7、按CAG指示收集调试日志,两次均卡在99%,等待时间过长且硬盘灯、鼠标已无响应,遂放弃。

生产环境

8、开机到带外管理收集Service Data,因已经能看到硬盘详情,CAG回复是硬盘固件版本过低导致,要求升级固件:

生产环境

生产环境

9、个人检查发现,Slot 3其实此时处于Normal但Unconfiguration Bad、且带Foreign信息,在带外管理直接把Slot 3清除Foreign(外部阵列)信息并Make UGood,重启机器触发阵列检查,Slot  3开始正常Rebuild。

10、登入操作系统,升级硬盘微码至L1B9,均成功。重启系统(彻底断电),故障依旧。

生产环境

11、再次收集ServiceData,发现Slot6确实存在错误计数。

生产环境

12、和联想售后沟通后就Slot 6重新报障,更换后等待同步完成后,告警消除。

3.总结与教训

1、关键部件固件、微码尽量保持官方建议的版本。

2、升级UEFI/阵列卡微码,涉及底层报警阀值及风险预测机制,此前没有报警的部件可能会在升级后报警。故升级UEFI及固件前最好做好数据备份,以规避因升级触发同一个VD两个或更多成员盘同时告警的极端情况。

3、条件允许情况下,数据备份尽量完整。

4、对于官方、原厂技术支持的说法和建议,要有自行评估的能力。

以上是关于盘Linux服务端的测试及故障处理办法的主要内容,如果未能解决你的问题,请参考以下文章

九阳豆浆机常见故障及处理办法

九阳豆浆机常见故障及处理办法?

一个电脑故障,请高人解决

Linux系统故障分析与排查--日志分析

linux运维系统故障排查思路及常见故障处理

linux运维系统故障排查思路及常见故障处理