如何加载分区到 Hbase 表的 hive orc
Posted
技术标签:
【中文标题】如何加载分区到 Hbase 表的 hive orc【英文标题】:How to load hive orc partitioned to Hbase table 【发布时间】:2020-11-24 07:45:45 【问题描述】:我完全开始使用 hbase 数据存储,我们目前正在迁移具有 orc 文件格式的 hive 外部文件系统。过去 2 年的数据需要转移到 hbase 表中,我看到很少使用批量加载方法 hcatalog 和 pig 使用但不是 orc 文件格式。你能帮我解决这个问题或者给我一些建议吗?这里我也提到了 Hive 表模式结构;
CREATE EXTERNAL TABLE countTbl (
client_id bigint,
count1 bigint,
inserted_at bigint,
count2 bigint,
date_time bigint,
id_dic STRUCT<id1:array<STRING>,id2:array<BIGINT>>,
partition_date string
)
partitioned by (primaryid string)
stored as orc
LOCATION 'hdfs://user/hadoop/countTbl';
【问题讨论】:
【参考方案1】:hbase 仅支持简单数据类型,您的 hive 表字段 id_dic
应简化以存储到 hfile
您可以使用 hive 表项目来 hbase 或批量加载到 hbase
【讨论】:
以上是关于如何加载分区到 Hbase 表的 hive orc的主要内容,如果未能解决你的问题,请参考以下文章
带有日期分区的 HdInsight Azure DW Polybase 到 Hive 表 (ORC) 失败