如何在cloudera中合并零件文件和标题

Posted

技术标签:

【中文标题】如何在cloudera中合并零件文件和标题【英文标题】:How to merge part files and headers in cloudera 【发布时间】:2014-01-30 08:58:16 【问题描述】:

我有一个大表,它是在 Hue 中使用 Pig Editor 生成的,包含大约十万条记录。 Pig 返回一些部分文件和单独的 .pig_header 和 .pig_schema 文件。 我需要将所有零件文件和标题作为 .txt 格式的完整表格。 我可以用 getmerge 命令做到这一点:

-- To delete schema from output folder
    fs -rm /OUTPUT_folder/.pig_schema
--To merge all the part files and header from output folder and to save result in .txt file  
    fs -getmerge /OUTPUT_folder/* /Another_folder/Result.txt

我想问一下 Cloudera 中是否有任何方法可以在不使用 getmerge 命令的情况下获取这个完整的表?

也许 Cloudera 中有一个软件或命令允许一次组合部分文件。

然后我只需要打开这个表,所有列的标题都以“有序的方式”,在色调中使用什么更好?

【问题讨论】:

【参考方案1】:

您可以尝试在 FOREACH FLATTEN() 之后执行最终的 GROUP BY ALL 和 ORDER BY,这样所有记录都将进入单个 reducer,因此只会在一个文件中。

【讨论】:

谢谢!你能举个例子吗,因为我不太了解如何使用Group by,例如,如果有5个文件(part-m-00000,part-m-00001,part-m-00003,part-m -00004,部分-m-00005)。或许 Avro Storage 是一种解决方案?

以上是关于如何在cloudera中合并零件文件和标题的主要内容,如果未能解决你的问题,请参考以下文章

请问“solidworks 如何将装配体变成单个零件”

如何在 Cloudera 中查看完整的异常/错误堆栈跟踪

Cloudera Impala:它如何从 HDFS 块中读取数据?

一旦我已经在 impala shell 中,如何运行 .sql 文件?

如何在 Cloudera 上挂载 HDFS?

Impala 如何支持分区?