Impala:从 mysql 转储创建镶木地板

Posted

技术标签:

【中文标题】Impala:从 mysql 转储创建镶木地板【英文标题】:Impala: create parquet from mysql dump 【发布时间】:2016-02-11 09:12:05 【问题描述】:

我有 mysql 转储,如何使用 Impala 将它们转换为 parquet 文件格式?

我知道我可以从 CSV 创建 parquet 文件,但我想直接创建 parquet 文件而不需要这两个步骤。

【问题讨论】:

【参考方案1】:

我通常使用两步流程,但我确定有更好的方法。我们使用这种方式来保持 parquet table 在线,以便在更新期间尽可能多地提供不间断的服务。

sqoop import --table <mysql_table> --hive-import --hive-table <hive_text_table>

impala-shell -i <impala_ip_addr> -q 'use <db>; INVALIDATE METADATA <hive_text_table>; CREATE TABLE <parquet_table> LIKE <hive_text_table> STORED AS PARQUET; INSERT OVERWRITE <parquet_table> SELECT * FROM <hive_text_table>;'

有点啰嗦,但以防万一你没有得到任何其他答案。

【讨论】:

以上是关于Impala:从 mysql 转储创建镶木地板的主要内容,如果未能解决你的问题,请参考以下文章

从 Impala 分区拼花表创建文本表

如何从配置单元表插入分区表(作为镶木地板)?

SparkSQL - 直接读取镶木地板文件

如何从镶木地板文件创建表格

为 impala 表无缝覆盖底层 parquet 数据

通过 Impala 的 Parquet 压缩类型