在 CDH 集群之间复制 parquet 表
Posted
技术标签:
【中文标题】在 CDH 集群之间复制 parquet 表【英文标题】:Copy parquet table between CDH clusters 【发布时间】:2013-12-06 19:19:03 【问题描述】:我需要将 parquet 表从 CDH4.5 复制到 CDH4.3 集群,这样做:
使用 distcp 复制包含数据的目录 (/user/hive/warehouse/mytable) 比较目录大小 固定的权限和所有权在两个集群(777 和 impala:hive)上看起来相同 打开 impala-shell 并创建了表 元数据无效invalidate metadata
刷新表refresh mytable
一切正常,但 impala 看不到数据。 Impala 重启也无济于事。是否可以让它看到复制的数据?
【问题讨论】:
【参考方案1】:没关系,问题是表是分区的,这种情况你需要手动重新创建分区:
alter table mytable add partition(time=12341313131)
【讨论】:
以上是关于在 CDH 集群之间复制 parquet 表的主要内容,如果未能解决你的问题,请参考以下文章
在 HIVE 中使用 CDH 5.4 和 Spark 1.3.0 和 Parquet 表的 PySpark 中的 Parquet 错误
TIMESTAMP 列问题 CDH5 与镶木地板表中的 CDH6
Parquet 支持的 Hive 表:Impala 中不可查询的数组列