使用 Sqoop 将数据附加到配置单元表

Posted

技术标签:

【中文标题】使用 Sqoop 将数据附加到配置单元表【英文标题】:Appending Data to hive Table using Sqoop 【发布时间】:2014-01-08 12:32:34 【问题描述】:

我正在尝试将数据附加到 hive 中已经存在的表。首先使用以下命令将表从 MS-SQL Server 导入到 hive。

Sqoop 命令:sqoop import --connect "jdbc:sqlserver://XXX.XX.XX.XX;databaseName=mydatabase" --table "my_table" --where "Batch_Id > 100" --username myuser --password mypassword --hive-import

现在我想将数据附加到配置单元中“Batch_Id

sqoop import --connect "jdbc:sqlserver://XXX.XX.XX.XX;databaseName=mydatabase" --table "my_table" --where "Batch_Id < 100" --username myuser --password mypassword --append --hive-table my_table

然而,这个命令成功运行也会更新 HDFS 数据,但是当你连接到 hive shell 并查询表时,附加的记录是不可见的。 Sqoop 更新了 hdfs "/user/hduser/my_table" 上的数据,但 "/user/hive/warehouse/batch_dim" 上的数据没有更新。

如何解决这个问题。

问候, 巴格万特·博比

【问题讨论】:

【参考方案1】:

尝试使用

sqoop  import  --connect "jdbc:sqlserver://XXX.XX.XX.XX;databaseName=mydatabase"  
               --table "my_table" --where "Batch_Id < 100"  
               --username  myuser  --password mypassword   
               --hive-import --hive-table my_table

当您使用--hive-import 时,请勿使用--append 参数。

【讨论】:

【参考方案2】:

您使用的 Sqoop 命令 (--import) 仅用于将记录摄取到 HDFS。您需要使用 --hive-import 标志将记录导入 Hive。

请参阅http://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html#_importing_data_into_hive 了解更多详细信息和其他导入配置选项(当然,您可能希望将文档引用更改为您的 Sqoop 版本)。

【讨论】:

以上是关于使用 Sqoop 将数据附加到配置单元表的主要内容,如果未能解决你的问题,请参考以下文章

Sqoop 增量导入“无法将文件附加到目标目录”

蜂巢 - 如何每天自动将数据附加到蜂巢表?

Sqoop 增量加载到分区的配置单元表中

通过 pyspark 数据框创建配置单元管理的分区表并为每个运行附加数据

比较 2 个配置单元表以查找没有任何唯一列/时间戳的更新/插入/删除记录并将其附加到 Hadoop 中的基表

使用 sqoop 将选定数据从 oracle db 导入 S3,并在 AWS EMR 上使用选定数据创建配置单元表脚本