服务器监控硬盘状态

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了服务器监控硬盘状态相关的知识,希望对你有一定的参考价值。

有什么软件,可以在WIN2008系统下检测硬盘状态,如DELL服务器,我用过他们的检测软件,
如我手上有几个IBM 3650 服务器,如何检测硬盘信息,最好能自动发送邮件预警的,又是硬盘提示没有,我碰到过,硬盘状态灯正常,可是RAID信息里显示成黄色,但是可以正常使用的,如这种信息,我不知道如何通过WINDOWS 状态下查看硬盘状态.
DS Storage Manager,这个软件不是吧,我试用了下,但是我的理解是这个软件用于nas网络存储器,管理吧,似乎不支持,不能直接查看3650服务器吧

对服务器来说,硬盘因为其机械结构,是最容易出现故障的设备。但恰恰是这最容易出现故障的设备中,存储着对企业来说最至关重要的IT资源——数据。一旦硬盘出现故障,会给企业带来重大的损失。据统计,为了解决硬盘故障带来的损失,目前全球每年的数据恢复市场价值大约在千亿美元——而这仅仅是是企业损失的一小部分。近年来,为了解决这一问题衍生出了大量的技术如:Raid、双机热备等。但这些技术都是在基于增加磁盘的数量的方式来尝试解决问题,降低了数据丢失的概率,但同时大大增加了运维成本,提高了管理的难度。

为此,蚁巡运维平台尝试引入一种新的方式,通过远程实时监控服务器硬盘的健康状态,达到在不增加硬件成本和管理成本的基础上保障数据安全的做法。通过蚁巡运维平台,可以自动发现安装了SMART标准技术的硬盘并远程监控其磁盘的健康指标。

S.M.A.R.T的全称为“Self-Monitoring Analysis and Reporting Technology”,即“自我监测、分析及报告技术”。支持S.M.A.R.T技术的硬盘可以通过硬盘上的监测指令和主机上的监测软件对磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析、比较。当出现安全值范围以外的情况时,就会自动向用户发出警告。几乎所有主流的硬盘,包括固态硬盘都支持这一技术。但该技术只适用于单机环境,且必须手工获取数据,使用该技术防止硬盘故障的管理成本很高。而在蚁巡中,可以批量的、远程的、实时的监控使用了该技术的硬盘,大大降低了管理成本。

同时,通过蚁巡还可以获得硬盘的使用时间、使用次数等基本指标数据。可以有效的评估硬盘的使用情况,从而进一步评估设备的使用率、寿命等信息。

据统计,通过这项技术,可以提前发现超过60%的硬盘故障,给企业带来的价值无可估量。
参考技术A 这个可以通过百度查询一下,上百度知道也可以查到。也可以去百度贴吧找相关的贴子。详细地址可以通过百度地图导航到地方。路上可以看一下好看视频和全民小视频。 参考技术B 用zabbix吧,支持多种协议追问

zabbix 这个软件我也了解过,我看到必须安装zabbix客户度,服务器端,功能是比较强大,听说还是开源的,适用吗,一般企业都用什么软件来监控

追答

目前我所在的工作地点现在就是用这个软件,不过我没深入了解,也没给我太多权限

追问

zabbix 只有客户端才能才window下安装的
我今天也找到软件了MegaRAID Storage Manager,一直想不起来

参考技术C 现在到了一年中天气最热的时候,相信绝大多数开车出门的人肯定都会在开车的时候把空调打开,最近,有人给小编说了这么一个现象,它的车子在开空调的时候会出现怠速抖动,问小编是怎么回事,讲真,小编也不知道,但是小编觉得可能是因为汽车开了空调之后,车子的负荷增大了,所以才导致了车子怠速抖动吧,于是小编专门请教了一个有经验的修车师傅,修车师傅说,如果汽车一开空调就怠速抖动,可能是因为这几个地方该检查了,来和小编一起看看吧。 参考技术D 服务器使用的硬盘转速快,可以达到每分钟7200或10000转,甚至更高;它还配置了较大(一般为2MB或4MB)的回写式缓存(已经过时,目前台式机硬盘缓存可达64MB!);平均访问时间比较短;外部传输率和内部传输率更高,采用Ultra Wide SCSI、Ultra2 Wide SCSI、Ultra160 SCSI、Ultra320 SCSI等标准的SCSI硬盘,每秒的数据传输率分别可以达到40MB、80MB、160MB、320MB。
因为服务器硬盘几乎是24小时不停地运转,承受着巨大的工作量。可以说,各硬盘厂商均采用了各自独有的先进技术来保证数据的安全。为了避免意外的损失,服务器硬盘一般都能承受300G到1000G的冲击力。
普通硬盘在上电启动的时候会全速启动,瞬间电流可能达到2安,甚至更高。 而监控硬盘启动的时候会缓慢加速,启动电流会控制在2安以下。因为监控系统中通常会安装多个硬盘,这样在启动的瞬间会产生很大的启动电流,如果是普通硬盘的话,电源会难以承受,甚至烧毁。 另外,监控系统对硬盘的传输速度要求一般不高,但是会频繁的小数据量的读写。 所以需要在磁头读写机构上针对监控系统的读写特点做结构优化设计,以延长磁头寿命。 监控硬盘的理论平均无故障运行时间比普通硬盘要长的多,稳定性、可靠性要更高。

smartctl----硬盘状态监控

smartmontools介绍

  smartmontools是一款开源的磁盘控制,监视工具,可以运行在Linux,Unix,BSD,Solaris,Mac OS,OS/2,Cygwin和Windows上,同时它还可以从启动光盘或启动软盘运行,支持ATA/ATAPI/SATA-3(到-8)位的硬盘和 SCSI硬盘,另外还支持磁带设备,它的老家在smartmontools.sourceforge.net,实际上它是一个软件包,包括了两个实用程序:smartctl和smatd。它监控的硬盘必须具有S.M.A.R.T特性,目前所有硬盘都有这个特性,但默认情况下通常没有开启这个功能,有两种方法来开启这个特性:1)通过BIOS设置选项2)通过smartctl命令。利用它可以测试硬盘的健康状况,并在发生故障前进行预警。

 

  准备工作

 

  在开始测试或监控之前,先检查一下目标硬盘是否支持S.M.A.R.T,以root登陆(Windows以系统管理员身份登陆),运行下面的命令:

#smartctl -i -d ata /dev/sda
  这里的参数-i指出显示设备信息,-d指出设备类型,这里指定的设备类型为ata,当然,如果是SCSI硬盘,就指定scsi了,最后的/dev/sda就是设备(df命令查询设备)了

 

  这个命令返回:

smartctl version 5.37 ‘i686-pc-linux-gnu‘ Copyright (C) 2002-6

Bruce Allen

Home page is http://smartmontools.sourceforge.net/=== START OF INFORMATION SECTION ===

Model Family: Western Digital Caviar SE (Serial ATA) family

Device Model: WDC WD800JD-00MSA1

Serial Number: WD-WMAM9S474555

Firmware Version: 10.01E01

User Capacity: 80,026,361,856 bytes

Device is: In smartctl database ‘for details use: -P show‘

ATA Version is: 7

ATA Standard is: Exact ATA specification draft version not

indicated

Local Time is: Thu Feb 7 13:09:37 2008 PST

SMART support is: Available - device has SMART capability.

SMART support is: Disabled


  从返回的信息中,可以看到硬盘的生产厂家,型号,序列号,容量,是否支持SMART,目前SMART开启没有。结果的最后两行就是我们需要的信息,从这里可以看出,这块硬盘是支持SMART技术的,但目前还没有开启它。

  如果运行这个命令返回了类似“Device does not support SMART”的信息就说明目标硬盘不支持SMART,不能使用这套软件包进行测试和监控。

 

  对于前面的例子,我们可以使用下面的命令来开启SMART特性:

#smartctl -s on -d ata /dev/sda
  这里的参数-s就是用来开关SMART特性的,如果加上参数值on就表示开启,如果参数值是off就表示关闭。

 

  开始测试

 

  其实就一条命令就完成了测试,如:

#smartctl -H -d ata /dev/sda
  这里的参数-H就是指定显示目标硬盘的健康状态

 

这个命令返回如下结果:

smartctl version 5.37 ‘i686-pc-linux-gnu‘ Copyright (C) 2002-6

Bruce Allen

Home page is http://smartmontools.sourceforge.net/=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED


  注意最后一行的测试结果“PASSED”,表明测试通过,该硬盘目前处于健康状态。


  其它一些有用的参数

 

  -A 显示支持的SMART属性,参考命令:

#smartctl -A sda


  返回内容: 

smartctl version 5.38 [i686-mingw32-xp-sp2] Copyright (C) 2002-8 Bruce Allen

Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===

SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE

3   Spin_Up_Time    0x0027  220  220    063   Pre-fail  Always   -        13621

4   Start_Stop_Count  0x0032  253  253    000   Old_age  Always   -        999

5   Reallocated_Sector_Ct 0x0033 253 253 063 Pre-fail Always - 0

6   Read_Channel_Margin 0x0001 253 253 100 Pre-fail Offline - 0

7   Seek_Error_Rate 0x000a 253 252 000 Old_age Always - 0

8   Seek_Time_Performance 0x0027 250 241 187 Pre-fail Always - 59017

9   Power_On_Minutes 0x0032 225 225 000 Old_age Always - 1019h+16m

10  Spin_Retry_Count 0x002b 253 252 157 Pre-fail Always - 0

11  Calibration_Retry_Count 0x002b 253 252 223 Pre-fail Always - 0

12  Power_Cycle_Count 0x0032 251 251 000 Old_age Always - 1091

192  Power-Off_Retract_Count 0x0032 253 253 000 Old_age Always - 0

193  Load_Cycle_Count 0x0032 253 253 000 Old_age Always - 0

194  Temperature_Celsius 0x0032 253 253 000 Old_age Always - 39

195  Hardware_ECC_Recovered 0x000a 253 252 000 Old_age Always - 1566

196  Reallocated_Event_Count 0x0008 253 253 000 Old_age Offline - 0

197  Current_Pending_Sector 0x0008 253 253 000 Old_age Offline - 0

198  Offline_Uncorrectable 0x0008 253 253 000 Old_age Offline - 0

199  UDMA_CRC_Error_Count 0x0008 199 199 000 Old_age Offline - 0

200  Multi_Zone_Error_Rate 0x000a 253 252 000 Old_age Always - 0

201  Soft_Read_Error_Rate 0x000a 253 251 000 Old_age Always - 5

202  TA_Increase_Count 0x000a 253 252 000 Old_age Always - 0

203  Run_Out_Cancel 0x000b 253 252 180 Pre-fail Always - 0

204  Shock_Count_Write_Opern 0x000a 253 252 000 Old_age Always - 0

205  Shock_Rate_Write_Opern 0x000a 253 252 000 Old_age Always - 0

207  Spin_High_Current 0x002a 253 252 000 Old_age Always - 0

208  Spin_Buzz 0x002a 253 252 000 Old_age Always - 0

209  Offline_Seek_Performnce 0x0024 189 187 000 Old_age Offline - 0

99  Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0

100  Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0

101  Unknown_Attribute 0x0004 253 253 000 Old_age Offline - 0


  返回结果中的各种属性请参见http://sourceforge.net/apps/trac/smartmontools/wiki/TitleIndex.   比如,id#为194的属性(Temperature_Celsius)表示输出硬盘温度,所以才会有软件能够监测到硬盘的温度。我们从这里也可以直接看到硬盘当前的温度为39°C,理想的状态是控制在5°C左右,所以应该增加风扇了。Pre-fail就是偵測到有衰退的現象,Old-age就算正常,只是硬碟算高齡了...

  -a 显示设备所有的SMART信息。

  -l error 列出硬盘错误日志。如果显示没有错误最好,如果显示了大量的错误信息,那就该着手准备替换硬盘了。

  -l selftest 列出自行测试结果。

 

利用smartd进行自动监控

  smartd是smartmontools软件包中的一个实用程序,可以单独运行,也可以注册为系统服务,Windows上的注册命令为:

>smartd install
  注册后,打开services.msc,可看到一个名叫“SmartD Service”服务,并设置为“自动”启动。

  在非Windows平台上可通过向/etc/rc.d/init.d添加smartd脚本,其实在安装smartmontools软件包的时候 通常会安装到这个位置,只需要在对应的启动级别下做一个软链接就可以了。

  smartd的配置文件为smartd.conf(Windows和非Windows平台都叫这个名字,Windows平台与 smartd.exe在同一个目录下,非Windows平台位于/etc目录下),在这个配置文件中已经内置许多种监视方法和参数说明,值得一体的是-m 参数,可以利用它将监视报告以邮件的形式发送给指定的E-mail地址,这样设备管理员就可以坐在电脑前就可以掌控所有硬盘设备的健康状况了。

以上是关于服务器监控硬盘状态的主要内容,如果未能解决你的问题,请参考以下文章

Zabbix监控服务器硬盘状态

系统监控

PIGOSS BSM 如何实现服务器硬件状态监控?

监控体系

有啥监控Linux服务器的工具吗?

zabbix监控硬盘指标,tcp连接状态