记录一次vSAN硬盘故障

Posted wuweijava

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记录一次vSAN硬盘故障相关的知识,希望对你有一定的参考价值。

一、发现故障

在Veeam对虚拟机进行备份时发生错误,备份失败,多次重试无效

Error: VDDK async operation error: 1. Value: 0x0000000000000001 Failed to upload disk. Agent failed to process method DataTransfer.SyncDisk. Exception from server: VDDK async operation error: 1. Value: 0x0000000000000001 Unable to retrieve next block transmission command. Number of already processed blocks: [326]. Failed to download disk.


二、尝试解决

尝试vmotion或克隆该虚拟机都失败

尝试重新创建备份任务,还是失败


三、查找对应物理磁盘

由于该虚拟机的存储策略使用了单副本,不能在“vSAN--虚拟对象” 下看到和他相关的物理磁盘

所以就到“vSAN--物理磁盘”  下逐个硬盘查看,哪些物理硬盘和他相关(虚拟磁盘置备40G,理论上不会分布到多个物理磁盘)

此处找到了关联的物理磁盘,记录下naa号

记录一次vSAN硬盘故障_vmware

此时OME也收到了 报警,该服务器的5号盘故障

记录一次vSAN硬盘故障_vSAN_02

记录该物理磁盘的SAS地址

记录一次vSAN硬盘故障_vmware_03

SSH登录物理服务器的ESXi

运行命令,获取存储设备的信息

esxcli storage core path list

记录一次vSAN硬盘故障_故障记录_04

根据SAS地址找到对应的磁盘信息,该磁盘的naa号也符合我们从vSAN控制台获取的磁盘信息

此处可以确认是5号硬盘故障,在iDrac中点亮该物理磁盘

记录一次vSAN硬盘故障_vmware_05

也可以在vSAN控制台点亮该磁盘(不一定有效)

记录一次vSAN硬盘故障_vSAN_06


四、移除物理磁盘

在vSAN界面移除该物理磁盘

记录一次vSAN硬盘故障_vSAN_07

根据需要选择数据迁移策略,因为硬盘要替换,所以此处选择“迁移全部数据”,时间可能较长,要耐心等待

记录一次vSAN硬盘故障_故障记录_08

最后,该磁盘移除后,进入备选磁盘

记录一次vSAN硬盘故障_vmware_09

完成上面的操作后,就可以安全更换磁盘了

从iDrac采集日志提供给Dell,他们会确认故障并安排工程师上门更换硬盘

记录一次vSAN硬盘故障_vSAN_10


五、后续

尝试对备份错误的虚拟机如下操作:

克隆,失败

备份,失败

还原(仅回滚差异数据),成功,但重新备份失败

删除虚拟机,用备份还原,重新备份,成功


六、总结

本次故障是从备份错误发现端倪,在iDrac报警后,vSAN仍然没有任何告警,估计是物理磁盘的某些性能下降,阈值触发了iDrac和备份错误,但此时数据仍然可用,也顺利迁移数据成功,没有引发业务问题。但出于安全考虑还是应该尽快更换磁盘。

iDrac和OME配合设置硬件告警,也记得配置哦。

以上是关于记录一次vSAN硬盘故障的主要内容,如果未能解决你的问题,请参考以下文章

vSAN永久磁盘故障的处理过程

服务器数据恢复异常关机导致Vsan逻辑架构出现故障,节点虚拟机文件丢失的数据恢复案例

Vsan分布式存储服务器数据恢复过程介绍

Vsan分布式存储服务器数据恢复过程介绍

vsan存储服务器非正常关机导致虚拟机故障解决方法

vSAN集群 无法识别磁盘处理