Nutanix分布式存储浅析

Posted 2021-04-02 三只大黄

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Nutanix分布式存储浅析相关的知识，希望对你有一定的参考价值。

备份和容灾

备份是指将数据备份到其他位置，避免因软件问题、硬件问题、环境问题导致数据丢失。或者在感染病毒后，可以利用旧的备份数据来进行恢复。

容灾指的是在保证生产系统数据丢失尽可能少的情况下，仍然保证生产系统的正常运行。

国内标准和国外标准如下：

通常说的灾备是将容灾与备份结合，即本地备份结合远程数据复制实现完善的数据保护。

有2个关键的衡量指标：

RPO（ Recovery Point Objective，恢复点目标）：指业务系统所允许的在灾难过程中的最大数据丢失量，用来衡量容灾系统的数据冗余备份能力。
RTO（Recovery Time Objective，恢复时间目标）：指信息系统从灾难状态恢复到可运行状态所需的时间，用来衡量容灾系统的业务恢复能力。

最终指标是在成本和损失之间找一个平衡点。

Nutanix分布式存储浅析（7）

Nutanix灾备中的几个关键概念

保护域（PD/Protection Domain）：同时保护多个“虚拟机/文件”的逻辑组。一个虚拟机或者文件基于相同的保护策略进行复制保护。一个PD可以保护一整个容器或被选中的虚拟机或文件。可以针对不同的RPO、RTO需求，创建多个不同的PD。

一致性组（CG/consistency group）：PD中多个相关联的虚拟机或文件构成的一个子集，实现故障的一致性。确保虚拟机或文件回滚时的数据一致性。

快照计划：执行快照和复制计划。确保快照计划符合预期的RPO的要求

保留策略：本地或远程站点中保留的快照数量。

远程站点的管理：配置保留/复制策略，配置前，必须先配置远程站点。

几个关键概念的关系如下图所示：

如何做备份：

创建保护域，选择要保护的对象，可以是volume group、virtural machine
选择一致性组
创建执行计划

如何恢复

Nutanix是利用原生的DSF快照，由cerebro调用，并由stargate执行。具体的操作如下：

快照：创建恢复点，并进行复制
恢复：从之前的快照中恢复虚拟机/文件
克隆：类似于恢复，但不替换原有对象。

选择快照后，可以选择复制到远程站点中去。恢复的时候，动作如下：

创建新的恢复对象
覆盖旧的

复制的拓扑

Nutanix除了支持点对点、菊花链外，还支持full或者partial mesh。从而匹配更多的使用场景。

Nearsync

Nearsync其实是相对于async而言的，没法做到实时同步，但可以做到近似同步，是Nutanix自己提出来的一个概念。实际原理是利用oplog，先做个种子快照，并进行复制，复制完成后，基于oplog，创建lws（lightweight snapshot），传送到远程站点，待下一个快照点后，将这些lws合并为一个快照，固化下来。

恢复的时候，先恢复快照点，再恢复lws，实际上就是回放journal。

延伸集群

都是抄袭vsan的，基于CDP来做。

云连接

将cvm部署到aws和azure上后，就是个单独的集群，可以作为远程复制的一个站点，从而让业务的数据上云。

小结

从介绍来看，nutanix的灾备体系还是非常完善的。这也是专业存储必备的一个功能。比较有特色的技术点：