Sqoop 导入不适用于蜂巢镶木地板

Posted

技术标签:

【中文标题】Sqoop 导入不适用于蜂巢镶木地板【英文标题】:Sqoop import not working with hive parquet 【发布时间】:2019-10-30 13:18:19 【问题描述】:

在 Sqoop-Hive 导入中捕获更改数据

我正在尝试使用 Sqoop 进行更改数据捕获,但是当我编写 -as-parquet 我的 Sqoop 导入命令时它正在下降。但是从我的 Sqoop 命令中删除 -as-parquet 后它正在工作并将数据放入文本中在 hive 表中格式化,但希望在 parquet hive 表中。

我想根据我的数据进行更新操作。

【问题讨论】:

你能提供更多的上下文吗?显示命令和错误。 【参考方案1】:

我在下面写了这个命令:

Sqoop import --connect "myoracleconntiondetails" 
             --username myuser --password mypasswd 
             --query 'select * from test_table where $CONDITIONS' 
             --hive_import --hive-database test_dase 
             --hive-table test_dase.test_table --null-string 'NULL' 
             --null-non-string '-99999' --target-dir mydir/full path 
             --split-by mycol --incremental append 
             --merge-key could -as-parquet -m -10

我收到此错误:

运行 sqoop 时出现异常:org.kitesdk.data.validationException:数据集名称 test_dase.test_table 不是字母数字(加上“”) org.kitesdk.data.validation:数据集名称test_dase.test_table不是字母数字(加'')

【讨论】:

您可以尝试将test_pase.test_table替换为test_dase_test_table

以上是关于Sqoop 导入不适用于蜂巢镶木地板的主要内容,如果未能解决你的问题,请参考以下文章

从镶木地板表中选择在蜂巢中不返回任何内容

从具有时间戳的镶木地板蜂巢表中读取火花

当我在蜂巢中写入镶木地板表时出现 Pyspark 错误

如何插入带有镶木地板格式和SNAPPY压缩的蜂巢表?

如何将镶木地板文件从 s3 导入到 postgresql rds

Sqoop 函数“--map-column-hive”被忽略