hadoop 2.2.0 中的数据备份和恢复

Posted 2023-04-18

技术标签:

【中文标题】hadoop 2.2.0 中的数据备份和恢复【英文标题】：data backup and recovery in hadoop 2.2.0 【发布时间】：2014-03-15 08:24:34 【问题描述】：

我是 Hadoop 新手，对 Hadoop 管理很感兴趣，所以我尝试在 Ubuntu 12.04 中以伪分布式模式安装 Hadoop 2.2.0 并成功安装并运行一些示例 jar 文件，现在我正在尝试进一步学习，尝试现在学习数据备份和恢复部分，谁能告诉在hadoop 2.2.0中备份和恢复数据的方法，还请推荐任何Hadoop管理的好书和学习Hadoop管理的步骤。

提前致谢。

【问题讨论】：

O'Reilly 的一本名为“Hadoop Operations”的好书，但对于其余部分，您能否具体说明您遇到了什么问题以及到目前为止您尝试了哪些步骤？您的问题过于开放，而不是 Stack Overflow 的主题（专注于开发而不是管理）。 【参考方案1】：

Hadoop 中没有经典的备份和恢复功能。这有几个原因：

HDFS 使用块级复制通过冗余来保护数据。 HDFS 可大规模扩展，备份到磁盘而不是磁带变得更加经济。 “大数据”的大小不适合轻松备份。

Hadoop 使用数据复制而不是备份。在内部，它为每个数据块创建多个副本（默认情况下，3 个副本）。它还有一个名为“distcp”的功能，允许您在集群之间复制数据副本。这是大多数 Hadoop 操作员通常为“备份”所做的。

一些公司，比如 Cloudera，正在将 distcp 工具整合到为他们的 Hadoop 分发创建“备份”或“复制”服务中。它针对 HDFS 中的特定目录进行操作，并将其复制到另一个集群。

如果你真的想为 Hadoop 创建一个备份服务，你可以自己手动创建一个。您需要一些访问数据的机制（NFS 网关、webFS 等），然后可以使用磁带库、VTL 等来创建备份。

【讨论】：

以上是关于hadoop 2.2.0 中的数据备份和恢复的主要内容，如果未能解决你的问题，请参考以下文章

elasticsearch备份与恢复4_使用ES-Hadoop将ES中的索引数据写入HDFS中

Hadoop中的Namenode故障和恢复