Hadoop 如何使用 Archives 实现归档

Posted @SmartSi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop 如何使用 Archives 实现归档相关的知识,希望对你有一定的参考价值。

1. 什么是 Hadoop Archives?

Hadoop Archives 是一种特殊的归档格式。Hadoop Archive 对应一个文件系统目录,扩展名为 *.har。Hadoop Archive 目录下包含元数据(形式是 _index 和 _masterindx)和数据(part)文件。index 文件包含了归档中文件的文件名和位置信息。

2. 如何创建归档文件

具体语法如下所示:

hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest>

参数说明:

  • -archiveName name 参数指定你要创建归档的名字 name。比如 user_order.har,扩展名必须为 *.har

  • -p <parent> 参数指定待归档文件的父路径。例如,-p /a a1 a2。这里的 /a 是 a1 和 a2 的父路径,所以需要归档的目录是 /a/a1 和 /a/a2

  • -r <replication factor> 表示所需的复制因子,此参数为可选参数。如果不指定,复制因子默认为3。

  • src 表示待归档文件的目录。

以上是关于Hadoop 如何使用 Archives 实现归档的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop Archives

Spring Boot制作个人博客-博客归档页面

Spring Boot制作个人博客-博客归档页面

Spring Boot制作个人博客-博客归档页面

如何使用java归档文件修订安全?

hadoop文件系统上的小文件合并-Hadoop Archives