以增量方式导出 Hive 数据

Posted

技术标签:

【中文标题】以增量方式导出 Hive 数据【英文标题】:Export Hive data incremental 【发布时间】:2015-12-12 09:20:14 【问题描述】:

我们需要增量运行 HiveQL 并将结果导出到 avro fromat 中的文件,我们需要导出记录。

以下是我正在研究的两种方式以及我在使用它们时遇到的挑战。

选项 1:使用 Pig 和客户加载器: 一种。编写一个运行 hive 查询的自定义 pig loader。 湾。编写一个 pig 流并创建与 hive loader 的结果的关系。 C。将结果保存在 avro 文件中。

选项 2. SQOOP 导出 - 我找不到增量导出 hive 查询结果的原因。

到目前为止,根据我的分析,我认为使用选项 1 将更适合我的要求。

如果您认为我们可以在 sqoop 中轻松实现这一点,有人可以解释一下吗?

【问题讨论】:

【参考方案1】:

Sqoop 可以将数据从 HDFS 目录导出到目标数据库,而不是文件。在这种情况下 sqoop 不能

    读取增量结果,除非您有单独的配置单元表或分区(这会导致新目录) 以 avro 格式写入外部文件。

【讨论】:

谢谢!您还有其他方法可以满足我的要求吗?

以上是关于以增量方式导出 Hive 数据的主要内容,如果未能解决你的问题,请参考以下文章

Hive 中的增量更新

hive 外部表增量加载

Hive数据导出的几种方式

大数据:增量采集处理导出

hive常用功能:Hive数据导入导出方式

hive_建表及导入数据