Impala 中的自定义文件格式

Posted

技术标签:

【中文标题】Impala 中的自定义文件格式【英文标题】:Custom file format in Impala 【发布时间】:2015-12-04 10:24:16 【问题描述】:

我们有一个自定义的内部数据格式。我想使用这种格式的 Impala,只是为了阅读。我想为这种格式编写绑定。但是没有理由回馈这个,因为没有其他人使用这种格式。

Impala 是否以某种方式支持文件格式插件?

不幸的是,来自hdfs-scan-node.cc 的文件格式列表似乎是硬编码的。如果是这种情况,是否有计划改变这种情况?还是由于某种原因这不是常见问题?

【问题讨论】:

【参考方案1】:

不,如How Impala Works with Hadoop File Formats中所述:

Impala 只能查询上表中列出的文件格式。特别是,Impala 不支持 ORC 文件格式。

造成这种情况的原因可能与运行时代码生成有关,如果 Impala 不限制文件格式,这将更难优化。 但是,Impala 是一个开源项目,您没有理由不能通过提交 JIRA 来建议这一点。

http://blog.cloudera.com/blog/2013/02/inside-cloudera-impala-runtime-code-generation/ https://issues.apache.org/jira/projects/IMPALA/issues https://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.html

【讨论】:

以上是关于Impala 中的自定义文件格式的主要内容,如果未能解决你的问题,请参考以下文章

impala 将查询数据导出为文件格式

impala+hdfs+csv格式文件

为分区数据定义 Impala 表模式

Impala - 替换表分区中的所有数据

如何将 TIMESTAMPS 格式转换为与 Impala 兼容

Impala 可以查询存储在 Hadoop/HDFS 中的 XML 文件吗