Hadoop 如何使用 Archives 实现归档
Posted @SmartSi
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop 如何使用 Archives 实现归档相关的知识,希望对你有一定的参考价值。
1. 什么是 Hadoop Archives?
Hadoop Archives 是一种特殊的归档格式。Hadoop Archive 对应一个文件系统目录,扩展名为 *.har
。Hadoop Archive 目录下包含元数据(形式是 _index
和 _masterindx
)和数据(part)文件。index
文件包含了归档中文件的文件名和位置信息。
2. 如何创建归档文件
具体语法如下所示:
hadoop archive -archiveName name -p <parent> [-r <replication factor>] <src>* <dest>
参数说明:
-
-archiveName name
参数指定你要创建归档的名字name
。比如user_order.har
,扩展名必须为*.har
。 -
-p <parent>
参数指定待归档文件的父路径。例如,-p /a a1 a2
。这里的/a
是a1
和a2
的父路径,所以需要归档的目录是/a/a1
和/a/a2
。 -
-r <replication factor>
表示所需的复制因子,此参数为可选参数。如果不指定,复制因子默认为3。 -
src
表示待归档文件的目录。
以上是关于Hadoop 如何使用 Archives 实现归档的主要内容,如果未能解决你的问题,请参考以下文章