Nutanix分布式存储浅析

Posted 三只大黄

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Nutanix分布式存储浅析相关的知识,希望对你有一定的参考价值。

备份和容灾


备份是指将数据备份到其他位置,避免因软件问题、硬件问题、环境问题导致数据丢失。或者在感染病毒后,可以利用旧的备份数据来进行恢复。


容灾指的是在保证生产系统数据丢失尽可能少的情况下,仍然保证生产系统的正常运行。


国内标准和国外标准如下:



通常说的灾备是将容灾与备份结合,即本地备份结合远程数据复制实现完善的数据保护。


有2个关键的衡量指标:

  • RPO( Recovery Point Objective,恢复点目标):指业务系统所允许的在灾难过程中的最大数据丢失量,用来衡量容灾系统的数据冗余备份能力。

  • RTORecovery Time Objective,恢复时间目标):指信息系统从灾难状态恢复到可运行状态所需的时间,用来衡量容灾系统的业务恢复能力。


最终指标是在成本和损失之间找一个平衡点。

Nutanix分布式存储浅析(7)


Nutanix灾备中的几个关键概念


保护域(PD/Protection Domain):同时保护多个“虚拟机/文件”的逻辑组。一个虚拟机或者文件基于相同的保护策略进行复制保护。一个PD可以保护一整个容器或被选中的虚拟机或文件。可以针对不同的RPO、RTO需求,创建多个不同的PD。


一致性组(CG/consistency group):PD中多个相关联的虚拟机或文件构成的一个子集,实现故障的一致性。确保虚拟机或文件回滚时的数据一致性。


快照计划:执行快照和复制计划。确保快照计划符合预期的RPO的要求


保留策略:本地或远程站点中保留的快照数量。


远程站点的管理:配置保留/复制策略,配置前,必须先配置远程站点。


几个关键概念的关系如下图所示:



如何做备份:


  1. 创建保护域,选择要保护的对象,可以是volume group、virtural machine

  2. 选择一致性组

  3. 创建执行计划



如何恢复


Nutanix是利用原生的DSF快照,由cerebro调用,并由stargate执行。具体的操作如下:


  1.  快照:创建恢复点,并进行复制

  2. 恢复:从之前的快照中恢复虚拟机/文件

  3. 克隆:类似于恢复,但不替换原有对象。


选择快照后,可以选择复制到远程站点中去。恢复的时候,动作如下:


  1. 创建新的恢复对象

  2. 覆盖旧的


复制的拓扑


Nutanix除了支持点对点、菊花链外,还支持full或者partial mesh。从而匹配更多的使用场景。



Nearsync


Nearsync其实是相对于async而言的,没法做到实时同步,但可以做到近似同步,是Nutanix自己提出来的一个概念。实际原理是利用oplog,先做个种子快照,并进行复制,复制完成后,基于oplog,创建lws(lightweight snapshot),传送到远程站点,待下一个快照点后,将这些lws合并为一个快照,固化下来。


恢复的时候,先恢复快照点,再恢复lws,实际上就是回放journal。


延伸集群


都是抄袭vsan的,基于CDP来做。


云连接


将cvm部署到aws和azure上后,就是个单独的集群,可以作为远程复制的一个站点,从而让业务的数据上云。


小结


从介绍来看,nutanix的灾备体系还是非常完善的。这也是专业存储必备的一个功能。比较有特色的技术点:

  1. NearSync根据备份的间隔,自动切换。可以进一步满足RPO的指标要求。

  2. 全局重删,如果要备份的数据在远程已经存在,就不再发起备份。

  3. 云连接。这就是cvm设计的前瞻性,可以运行在公有云上。但这样一来,可能无法发挥PMD模式的威力。


《Nutanix 圣经》介绍的灾备内容还比较少,主要是在Leap、Xi等模块上,后续补充介绍和完善。


以上是关于Nutanix分布式存储浅析的主要内容,如果未能解决你的问题,请参考以下文章

浅析HDFS分布式存储有哪些优势特点

科技云报道:2021《分布式文件系统和对象存储魔力象限图》解读

HDFS架构与原理浅析

ceph:rados浅析

MapReduce简介和过程浅析

浅析 Bigtable 和 LevelDB 的实现