如何在cloudera中合并零件文件和标题
Posted
技术标签:
【中文标题】如何在cloudera中合并零件文件和标题【英文标题】:How to merge part files and headers in cloudera 【发布时间】:2014-01-30 08:58:16 【问题描述】:我有一个大表,它是在 Hue 中使用 Pig Editor 生成的,包含大约十万条记录。 Pig 返回一些部分文件和单独的 .pig_header 和 .pig_schema 文件。 我需要将所有零件文件和标题作为 .txt 格式的完整表格。 我可以用 getmerge 命令做到这一点:
-- To delete schema from output folder
fs -rm /OUTPUT_folder/.pig_schema
--To merge all the part files and header from output folder and to save result in .txt file
fs -getmerge /OUTPUT_folder/* /Another_folder/Result.txt
我想问一下 Cloudera 中是否有任何方法可以在不使用 getmerge 命令的情况下获取这个完整的表?
也许 Cloudera 中有一个软件或命令允许一次组合部分文件。
然后我只需要打开这个表,所有列的标题都以“有序的方式”,在色调中使用什么更好?
【问题讨论】:
【参考方案1】:您可以尝试在 FOREACH FLATTEN() 之后执行最终的 GROUP BY ALL 和 ORDER BY,这样所有记录都将进入单个 reducer,因此只会在一个文件中。
【讨论】:
谢谢!你能举个例子吗,因为我不太了解如何使用Group by,例如,如果有5个文件(part-m-00000,part-m-00001,part-m-00003,part-m -00004,部分-m-00005)。或许 Avro Storage 是一种解决方案?以上是关于如何在cloudera中合并零件文件和标题的主要内容,如果未能解决你的问题,请参考以下文章
Cloudera Impala:它如何从 HDFS 块中读取数据?