记录一次vSAN硬盘故障
Posted wuweijava
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记录一次vSAN硬盘故障相关的知识,希望对你有一定的参考价值。
一、发现故障
在Veeam对虚拟机进行备份时发生错误,备份失败,多次重试无效
Error: VDDK async operation error: 1. Value: 0x0000000000000001 Failed to upload disk. Agent failed to process method DataTransfer.SyncDisk. Exception from server: VDDK async operation error: 1. Value: 0x0000000000000001 Unable to retrieve next block transmission command. Number of already processed blocks: [326]. Failed to download disk. |
二、尝试解决
尝试vmotion或克隆该虚拟机都失败
尝试重新创建备份任务,还是失败
三、查找对应物理磁盘
由于该虚拟机的存储策略使用了单副本,不能在“vSAN--虚拟对象” 下看到和他相关的物理磁盘
所以就到“vSAN--物理磁盘” 下逐个硬盘查看,哪些物理硬盘和他相关(虚拟磁盘置备40G,理论上不会分布到多个物理磁盘)
此处找到了关联的物理磁盘,记录下naa号
此时OME也收到了 报警,该服务器的5号盘故障
记录该物理磁盘的SAS地址
SSH登录物理服务器的ESXi
运行命令,获取存储设备的信息
esxcli storage core path list
根据SAS地址找到对应的磁盘信息,该磁盘的naa号也符合我们从vSAN控制台获取的磁盘信息
此处可以确认是5号硬盘故障,在iDrac中点亮该物理磁盘
也可以在vSAN控制台点亮该磁盘(不一定有效)
四、移除物理磁盘
在vSAN界面移除该物理磁盘
根据需要选择数据迁移策略,因为硬盘要替换,所以此处选择“迁移全部数据”,时间可能较长,要耐心等待
最后,该磁盘移除后,进入备选磁盘
完成上面的操作后,就可以安全更换磁盘了
从iDrac采集日志提供给Dell,他们会确认故障并安排工程师上门更换硬盘
五、后续
尝试对备份错误的虚拟机如下操作:
克隆,失败
备份,失败
还原(仅回滚差异数据),成功,但重新备份失败
删除虚拟机,用备份还原,重新备份,成功
六、总结
本次故障是从备份错误发现端倪,在iDrac报警后,vSAN仍然没有任何告警,估计是物理磁盘的某些性能下降,阈值触发了iDrac和备份错误,但此时数据仍然可用,也顺利迁移数据成功,没有引发业务问题。但出于安全考虑还是应该尽快更换磁盘。
iDrac和OME配合设置硬件告警,也记得配置哦。
以上是关于记录一次vSAN硬盘故障的主要内容,如果未能解决你的问题,请参考以下文章