码农心得 | 分布式文件系统的备份

Posted 2021-04-24 擎创夏洛克AIOps

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了码农心得 | 分布式文件系统的备份相关的知识，希望对你有一定的参考价值。

这几年一直在做大数据的项目，一类是基于MapReduce的报表统计系统；另一类是基于ELK的日志分析系统。这两类系统的底层都用到了HDFS即Hadoop分布式文件系统（Hadoop Distributed File System）。

在项目实施过程中，小编最常被问到的问题就是如何备份HDFS。

首先我们先来普及一些HDFS的基本知识，作为一个分布式文件系统，HDFS本身就是自带冗余的，任何一个数据块都有三个副本（可以在hdfs-site.xml文件中设置副本数量），同时当服务器分布在有多个机架时，副本也会跨机架部署。但HDFS默认无法跨数据中心部署，这是由其最初版本“Google FS”在产品设计时就定义好的。原因有以下几点：

写入数据时对带宽的要求。每当数据写入HDFS时，由于复制机制的关系，需要在另一数据中心同步一份副本。数据流以数据块的形式逐一写入HDFS，每一个数据块都会分布在三个数据节点，其中至少一个是在另一个机架上。而如果HDFS跨站点部署也就意味着站点间带宽将严重影响到数据写入的等待时间（而原来只是机架间的交换机所决定）。

码农心得 | 分布式文件系统的备份

MapReduce的Shuffle对带宽的要求。对于一台分布式的YARN集群，可能存在Mapper分布在不同数据中心的情况，但是对于任何一台Reducer而言，它需要读取所有Mapper节点的数据处理结果。我们假设两个数据中心的Mapper是平均分布的，那就会造成50%的数据处理结果是需要跨站点传输的，再加上有时Mapper的输出数据量会大过输入数据，因此这部分网络开销会严重影响MR的运行速度。

码农心得 | 分布式文件系统的备份