如何加载分区到 Hbase 表的 hive orc

Posted

技术标签:

【中文标题】如何加载分区到 Hbase 表的 hive orc【英文标题】:How to load hive orc partitioned to Hbase table 【发布时间】:2020-11-24 07:45:45 【问题描述】:

我完全开始使用 hbase 数据存储,我们目前正在迁移具有 orc 文件格式的 hive 外部文件系统。过去 2 年的数据需要转移到 hbase 表中,我看到很少使用批量加载方法 hcatalog 和 pig 使用但不是 orc 文件格式。你能帮我解决这个问题或者给我一些建议吗?这里我也提到了 Hive 表模式结构;

CREATE EXTERNAL TABLE countTbl (
 client_id bigint,
 count1 bigint,
 inserted_at bigint,
count2 bigint,
 date_time bigint,
id_dic STRUCT<id1:array<STRING>,id2:array<BIGINT>>,
 partition_date string
)
partitioned by (primaryid string)
stored as orc
LOCATION 'hdfs://user/hadoop/countTbl'; 

【问题讨论】:

【参考方案1】:

hbase 仅支持简单数据类型,您的 hive 表字段 id_dic 应简化以存储到 hfile 您可以使用 hive 表项目来 hbase 或批量加载到 hbase

【讨论】:

以上是关于如何加载分区到 Hbase 表的 hive orc的主要内容,如果未能解决你的问题,请参考以下文章

带有日期分区的 HdInsight Azure DW Polybase 到 Hive 表 (ORC) 失败

如何将mapreduce清洗的数据添加到hive分区中国

分区的ORC表在Hive中显示为空

利用hive-hbase表做hive表快速入库hbase功能,纬度表的查询

无法在hive分区表中查看数据

hive 表的常用操作