WSFC备份恢复

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了WSFC备份恢复相关的知识,希望对你有一定的参考价值。

任何一项IT系统都需要备份恢复的机制,WSFC也不例外,对于WSFC,我们主要需要关注三块内容


  1. 群集CNO VCO的备份恢复

  2. 群集数据磁盘,CSV内容的备份恢复

  3. 群集数据库的备份恢复


群集 CNO VCO的备份恢复,其实就是活动目录数据的备份恢复了,正常情况下,2008R2之后开启活动目录回收站功能,即便计算机误删除,也可以恢复出来,之后再在群集管理器修复名称即可,这在前面文章已经讲过,2012开始可以直接通过AD管理中心恢复。且我们可以通过防删,备份等方案规避,CNO,VCO一旦误删,会导致群集无法访问,无法进行群集身份验证


群集数据磁盘,CSV内容,这点我们可以通过DPM,或是其它工具,例如,我们如果在群集CSV上面跑了很多虚拟机,那么是需要定期对群集上面的虚拟机做备份的,这时候如果备份工具支援,我们可以从CSV级别去备份上面所有的虚拟机内容,防止群集共享数据丢失


群集数据库的备份恢复,我们今天主要将涉及这个方面,之前,我们说过,群集数据库是群集配置运行的核心,它储存着WSFC群集所有的配置情况,会实时的在各个节点之间及见证磁盘同步,一旦发生故障转移,节点会参照群集数据库进行故障回复


群集数据库储存在节点注册表及见证磁盘,我们备份时,使用windows server backup,DPM备份系统状态,即可备份群集数据库,群集数据库储存在系统状态中。


群集数据库的备份恢复主要分为两种,一种是授权模式恢复,一种是非授权模式恢复,很有意思,有点像AD的数据库恢复一样


授权模式恢复


什么场景下会使用到授权模式恢复,例如,之前群集运行最正常的情况下,你执行了一次备份,忽然有一天因为不小心操作,弄坏了一些群集配置,整个群集开始不正常工作,这时候,您可以使用授权恢复,选择与一个节点进行恢复,在该节点上执行授权恢复,首先停止群集服务,恢复群集数据库配置,再启动群集节点,请注意,实质上这里,执行授权恢复的时候,所有群集节点的群集服务都会被停止!授权恢复后只要被恢复节点会优先启动,因为授权恢复,要把群集数据库配置回滚到之前的paxos标记,回滚之后需要将被授权恢复节点的群集数据库提升为黄金副本,之后,再手动启动其它群集节点的群集服务,其它群集节点会从拥有黄金副本的节点同步群集数据库配置,群集恢复正常。


可以看到,授权模式恢复的关键点在于 


1.机器可以不关机在线恢复 ,恢复后不需要重启 

2.WSFC和Windows Server backup感知,执行群集授权模式恢复


基本上授权模式恢复的场景很明确,回滚群集配置,并提升回滚节点群集数据库为黄金副本。


这里需要注意的一点是,由于群集数据库的paxos标记会实时变化,因此,执行群集数据库授权恢复时,一定一定不要一起启动所有群集节点的群集服务,一旦你不小心在其它节点改了配置,这次群集授权恢复就失败了,因为被修改节点的paxos标记为最新,恢复节点还是会去和它同步群集数据库



非授权恢复呢


相信大家已经猜到了,非授权恢复,和授权恢复类似,但是并不会有提升群集节点数据库为黄金副本这个过程


非授权恢复和授权恢复最大的不同是非授权恢复需要重启机器来完成,且恢复时间会较长


实质上当我们执行非授权恢复时,是相当于对于节点执行一个完整的裸机恢复


非授权恢复,老王认为主要适用于以下两种场景


  1. 单个群集节点出现问题,经常蓝屏崩溃,不稳定,现在不想继续用了,希望重装,这时候可以直接格式化节点,插入系统光盘,裸机恢复节点,裸机恢复后,群集节点数据库paxos标记为旧的标记,并不会提升为黄金副本,被非授权恢复的单个节点,会和其它拥有最新paxos标记的群集节点同步数据库。

  2. 整个群集出现问题,群集出现问题,任何一个节点都不能用了,但之前有裸机备份,这时候可以直接新装一台机器,插入系统光盘,裸机恢复到该节点,让群集先单点复活,之后等待有资源准备就绪后再加入到群集。


总结一下


授权恢复主要是用于恢复群集配置,并同步到其它所有节点

非授权恢复主要用于恢复节点或群集可以正常使用,被恢复的节点将会和其它可用节点同步群集数据库


目前老王来看能够支持微软群集数据库授权恢复的只有Windows Server backup,DPM,其中主要以Windows Server backup为主,Windows Server backup可以看到群集执行授权恢复的过程


对于非授权恢复,无非是裸机备份,裸机恢复,maybe除了微软的Windows Server backup,DPM,一些其它第三方的备份工具也可以使用


另外老王建议,备份群集数据库配置和备份群集数据分开执行,备份群集数据库就只是备份群集数据库配置,恢复时候我也只恢复群集数据库相关的内容,对于群集数据磁盘和CSV内容,建议单独执行备份,不要和群集数据库的备份恢复放在一起。


接下来我们分别实战群集数据库授权恢复和非授权恢复


授权恢复,场景介绍


DC01&iscsi      

lan:10.0.0.2 255.0.0.0

iscsi:30.0.0.2 255.0.0.0


HV01

MGMET:10.0.0.9 255.0.0.0 DNS 10.0.0.2

ISCSI:30.0.0.9 255.0.0.0

CLUS:18.0.0.9 255.0.0.0


HV02

MGMET:10.0.0.10 255.0.0.0 DNS 10.0.0.2

ISCSI:30.0.0.10 255.0.0.0

CLUS:18.0.0.10 255.0.0.0


当前群集正常运行,群集名称fscluster,群集文件服务应用fileshare

技术分享

当前群集正常运行,我们已经执行过一次裸机备份

技术分享

授权恢复操作流程如下


  1. 检索确认备份信息

  2. 通过wbadmin命令执行群集信息恢复

  3. wbadmin和wsfc整合,停止所有节点群集服务

  4. 恢复群集数据库为之前备份

  5. 启动被恢复节点群集服务,提升群集数据库为黄金副本

  6. 手动启动其它群集节点群集服务


破坏群集,删除文件服务器内容

技术分享

1.检查群集节点备份记录

wbadmin get versions

技术分享

检查备份详细信息

wbadmin get items -version:10/24/2017-02:17

技术分享

可以看到,虽然我们只是备份了裸机,但是windows server backup,感知到我们有群集,自动帮助我们备份群集,在2003时代只保存在系统状态,2008时代开始已经单独独立成应用程序!


2.在线通过wbadmin执行群集数据库授权恢复

wbadmin start recovery -itemtype:app -items:cluster -version:10/24/2017-02:17


正如我们所讲

技术分享

准备好了输入Y,群集开始执行停止群集节点群集服务 - 恢复数据库 - 重新启动恢复节点群集服务

技术分享

恢复完成后提示如下

技术分享

可以看到,备份恢复过程,首先会停止所有节点群集服务,之后会先启动被恢复节点的群集服务,以提升为黄金副本

技术分享


技术分享


手动启动HV02节点群集服务

技术分享


技术分享

群集配置恢复如初,授权恢复完成

技术分享

查看clusterlog 授权恢复过程

技术分享


开始执行群集数据库还原 


技术分享


恢复paxos标记,提升paxos标记为黄金副本


技术分享


技术分享


群集恢复过程停止群集所有节点群集服务,但会稍后会自动启动被恢复节点,并提升paxos标记为最优,其它节点再加入时,必须要求与被恢复节点同步群集数据库内容,才可以正常加入群集


技术分享


技术分享


接下来我们再执行非授权恢复


环境同授权恢复一样,这里我们模拟群集完全崩溃,两个节点都不能使用,我们新建一个配置完全相同的HV03,之后把群集内容恢复到该节点


由于我们会通过网络进行恢复,因此需要HV03这个新节点可以接入网络,以访问备份文件夹,可临时架设个DHCP服务器


当前HV01 HV02节点已关机,无法再开机


技术分享

按照同样配置新建HV03虚拟机,插入2016光盘,选择修复计算机

技术分享

疑难解答

技术分享

系统映像恢复

技术分享

进去之后,如果你的新机器正常加入到了环境,正常联系到DHCP获取到地址,这里可以通过输入网络路径,凭据,访问到备份共享文件夹。

技术分享

国际惯例,下一步下一步

技术分享


技术分享

如采用新硬件服务器,此处需载入驱动程序

技术分享


技术分享

泡杯茶等着好了

技术分享

恢复完成后重启,进入开机界面

技术分享

群集节点网卡已经恢复到HV01的的状态,一些时候会出现部分网卡未正常恢复,如发现未正常恢复,重新输入即可。

技术分享存储得到正常连接,在2008R2时代,如果执行非授权恢复,一些时候会碰见存储要重新连接的情况,2012,2016这得到了优化,大部分情况下存储状态都会保持正常

技术分享

打开群集管理器发现群集也已经正常恢复,当前只有新HV01节点可用

技术分享


技术分享

稍后可以再重做其它节点添加进来


至此我们完成了在群集完全崩溃的情况下,利用已有的裸机备份重新恢复起群集。

除了我们这种形式的恢复

还有一种非授权恢复场景

即当前节点存活,那么我就可以在存活节点上面通过执行命令

wbadmin start systemstaterecovery -version:

来恢复单个崩溃节点,该恢复过程只是系统状态恢复,并不会执行数据库副本paxos标记提升操作,执行完成后重启,节点会和其它现有节点同步最新的群集数据库内容。


之所以老王选择演示群集完全崩溃的场景

是因为老王觉得这种场景下非授权恢复才发挥出最重要的意义

如果说因为一个节点的崩溃,而花力气去执行非授权恢复,我不如直接新build一个节点加入群集


对于群集的备份恢复


老王建议是一体化来做


  1. 开启活动目录回收站功能,CNO/VCO误删后,活动目录恢复,群集修复,如果群集所有信息都被删除,应最优先恢复CNO/VCO

  2. 针对群集节点执行裸机备份,用于非授权恢复崩溃的的节点/群集,授权恢复群集数据库配置。

  3. 针对群集数据磁盘,CSV,选择能和群集感知的备份工具进行备份恢复,如果群集所有信息都被删除,应先恢复CNO/VCO,群集数据库配置,最后恢复群集数据磁盘。


本文出自 “老王的微软技术研究乐园” 博客,请务必保留此出处http://wzde2012.blog.51cto.com/6474289/1975541

以上是关于WSFC备份恢复的主要内容,如果未能解决你的问题,请参考以下文章

CentOS 系统备份与恢复

「oracle备份恢复」oracle数据库备份恢复之逻辑备份与恢复

数据备份与恢复系统备份与恢复

JENKINS备份与恢复

数据库备份与恢复--02---mysql命令恢复数据---(逻辑备份)

Gitlab的备份与恢复