PC服务器硬盘故障处理

Posted 老叶茶馆_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PC服务器硬盘故障处理相关的知识,希望对你有一定的参考价值。

1. 写在前头
2. 简介
3. 硬盘故障处理流程
3.1 故障定位及分析
3.1.1 名词解释
3.1.2 收集日志及阵列穿孔
3.1.3 查看物理磁盘信息
3.1.4 物理磁盘故障分析
3.1.5 查看磁盘阵列信息
3.1.6 磁盘阵列故障分析
3.2 业务定位
3.3 设备定位
3.4 故障处理



标签:PC服务器, 硬盘故障

1. 写在前头

一直以来都想写一些关于服务器硬盘维护的文档,但是由于各种原因,就一直搁置了。而且还有一个原因,我这语文不及格呢,语言该怎么组织?还想着找度娘学习借鉴一下高人写的文档,可惜都没找到我想要的,好吧不多扯,进入正题吧

2. 简介

大数据时代,如何保证数据安全性,显得更加重要。从简单的定期备份,到备份系统、到灾备解决方案等等,都是为了确保数据安全。而不论何种方案,都必须将数据存放在底层的物理设备(硬盘、磁带等),今天我们主要讲服务器硬盘故障时该如何维护。

3. 硬盘故障处理流程

一直以来都在一线处理各类设备故障,我把硬盘的故障流程整理成如下五个步骤,四个都缺一不可。

  • 故障定位及分析

  • 业务定位

  • 设备定位

  • 故障处理

3.1 故障定位及分析

3.1.1 名词解释

        
      
      
  1. - DSA IBM日志收集工具

  2. - DSET DELL日志收集工具

  3. - TTY :硬盘日志收集工具

  4. - Slot Number :服务器硬盘槽位号,dell/IBM服务器槽位号从O开始

  5. - Media Error Count:硬盘物理错误数

  6. - Other Error Count:硬盘逻辑错误数

  7. - Predictive Failure Count:预告警数

  8. - Raw Size:磁盘容量

  9. - PD Type: 磁盘类型(SAS,STAT)

  10. - Firmware state:硬盘状态

  11. - RAID Level :阵列等级

  12. - State :阵列状态

3.1.2 收集日志及阵列穿孔

不仅仅是硬盘故障的时候需要收集日志,在服务器诊断中,线索往往是扑所迷离的,凭借经验或者猜测,无法正确地判断设备故障原因,排除故障,收集日志提交给售后工程师,可以快速和有效的缩小问题范围,精准定位故障点。

服务器出现故障后,必须一步步检测解决,走捷径可能会付出巨大的代价!收集日志可以大大减少数据丢失风险,避免多次上门维修,反复沟通造成的时间和精力浪费。

好吧估计名眼人一看就知道,上面的这两段文字不是我自己写的,因为我语文不及格嘛,其实是从DELL的微信公众号(公众号:戴尔服务解码)文章中抄来的,目的仅仅是为了让大家知道收集日志的重要性!当然过保的机器,就需要我们自己学会查看日志文件了。

  • DSA日志

        
      
      
  1. DSA日志是IBM机器保修时候,必要的日志,他可以收集所有的硬件健康状态日志,这里不多做介绍,只要一个文件在系统里执行完成后可以顺利收到日志

  • DSET日志

        
      
      
  1. DSET日志是DELL机器保修时候,必要的日志,功能如同DSA日志,DSET日志可以收集所有硬件健康状态日志,还可以收集到硬件的部件号,售后可以根据部件号来确认故障配件是否属于本机原配,若不是原配配件,则需要另外提供采购的配件订单号。

  • TTY日志

        
      
      
  1. TTY日志是硬盘故障时,硬盘故障最怕的就是出现阵列穿孔,收集TTY日志,可以直观的看出阵列是否出现了穿孔(关键字:Puncturing bad block),自己可以收集TTY日志并查看。

        
      
      
  1. #unzip MegaCli8.02.21forLinux.zip

  2. #ll

  3. -rw-r--r-- 1 root root 1588725 May 17  2011 Lib_Utils-1.00-09.noarch.rpm

  4. -rw-r--r-- 1 root root 1272097 Oct 24  2011 MegaCli-8.02.21-1.noarch.rpm

  5. -rw-r--r-- 1 root root 2848229 Sep  8 17:12 MegaCli8.02.21forLinux.zip

  6. -r--r--r-- 1 root root    2683 Oct 24  2011 readme.txt

  7. -rw-r--r-- 1 root root    7404 Apr 13  2012 Run-Linux-PERC6-v1.0.sh

  8. #chmod +x Run-Linux-PERC6-v1.0.sh

  9. 故障硬盘点灯操作

    盘Linux服务端的测试及故障处理办法

    vSAN永久磁盘故障的处理过程

    EST云硬盘修复系统

    linux操作系统故障处理-ext4文件系统超级块损坏修复

    4.GlusterFS 常见故障处理