Impala 中的自定义文件格式
Posted
技术标签:
【中文标题】Impala 中的自定义文件格式【英文标题】:Custom file format in Impala 【发布时间】:2015-12-04 10:24:16 【问题描述】:我们有一个自定义的内部数据格式。我想使用这种格式的 Impala,只是为了阅读。我想为这种格式编写绑定。但是没有理由回馈这个,因为没有其他人使用这种格式。
Impala 是否以某种方式支持文件格式插件?
不幸的是,来自hdfs-scan-node.cc
的文件格式列表似乎是硬编码的。如果是这种情况,是否有计划改变这种情况?还是由于某种原因这不是常见问题?
【问题讨论】:
【参考方案1】:不,如How Impala Works with Hadoop File Formats中所述:
Impala 只能查询上表中列出的文件格式。特别是,Impala 不支持 ORC 文件格式。
造成这种情况的原因可能与运行时代码生成有关,如果 Impala 不限制文件格式,这将更难优化。 但是,Impala 是一个开源项目,您没有理由不能通过提交 JIRA 来建议这一点。
http://blog.cloudera.com/blog/2013/02/inside-cloudera-impala-runtime-code-generation/ https://issues.apache.org/jira/projects/IMPALA/issues https://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.html
【讨论】:
以上是关于Impala 中的自定义文件格式的主要内容,如果未能解决你的问题,请参考以下文章