如何使用 LZO 以外的压缩处理 Hadoop Map/Reduce 中的协议缓冲区文件?

Posted

技术标签:

【中文标题】如何使用 LZO 以外的压缩处理 Hadoop Map/Reduce 中的协议缓冲区文件?【英文标题】:How do I process Protocol Buffer files in Hadoop Map/Reduce using compression other than LZO? 【发布时间】:2013-02-22 00:22:30 【问题描述】:

我想使用 Hadoop Map/Reduce 处理 delimited 协议缓冲区文件,这些文件使用 LZO 以外的其他东西压缩,例如xzgzip。 Twitter 的大象鸟库似乎主要支持读取 LZO 压缩的 protobuf 文件,因此似乎不能满足我的需求。是否有现有的库或标准方法来执行此操作?

(注意:从我选择的压缩算法可以看出,解决方案没有必要使 protobuf 文件可拆分。您的答案甚至不需要指定特定的压缩算法,但至少应该允许我提到的其中一个。)

【问题讨论】:

【参考方案1】:

您可能需要查看 Hadoop 的 RAgzip 补丁,以处理大型 gzip 文件的多个地图任务:RAgzip

【讨论】:

以上是关于如何使用 LZO 以外的压缩处理 Hadoop Map/Reduce 中的协议缓冲区文件?的主要内容,如果未能解决你的问题,请参考以下文章

[转] - hadoop中使用lzo的压缩

如何在 hadoop mapreduce 中进行 lzo 压缩?

HadoopLZO压缩配置

Gzip,BZip2,Lzo,Snappy总结

0003-如何在CDH中使用LZO压缩

Hadoop配置lzo和lzop