Sqoop 导入不适用于蜂巢镶木地板

Posted 2023-04-18

技术标签:

【中文标题】Sqoop 导入不适用于蜂巢镶木地板【英文标题】：Sqoop import not working with hive parquet 【发布时间】：2019-10-30 13:18:19 【问题描述】：

在 Sqoop-Hive 导入中捕获更改数据

我正在尝试使用 Sqoop 进行更改数据捕获，但是当我编写 -as-parquet 我的 Sqoop 导入命令时它正在下降。但是从我的 Sqoop 命令中删除 -as-parquet 后它正在工作并将数据放入文本中在 hive 表中格式化，但希望在 parquet hive 表中。

我想根据我的数据进行更新操作。

【问题讨论】：

你能提供更多的上下文吗？显示命令和错误。 【参考方案1】：

我在下面写了这个命令：

Sqoop import --connect "myoracleconntiondetails" 
             --username myuser --password mypasswd 
             --query 'select * from test_table where $CONDITIONS' 
             --hive_import --hive-database test_dase 
             --hive-table test_dase.test_table --null-string 'NULL' 
             --null-non-string '-99999' --target-dir mydir/full path 
             --split-by mycol --incremental append 
             --merge-key could -as-parquet -m -10

我收到此错误：

运行 sqoop 时出现异常：org.kitesdk.data.validationException：数据集名称 test_dase.test_table 不是字母数字（加上“”） org.kitesdk.data.validation:数据集名称test_dase.test_table不是字母数字（加''）

【讨论】：

您可以尝试将test_pase.test_table替换为test_dase_test_table

以上是关于Sqoop 导入不适用于蜂巢镶木地板的主要内容，如果未能解决你的问题，请参考以下文章

从镶木地板表中选择在蜂巢中不返回任何内容

从具有时间戳的镶木地板蜂巢表中读取火花

当我在蜂巢中写入镶木地板表时出现 Pyspark 错误

如何插入带有镶木地板格式和SNAPPY压缩的蜂巢表？

如何将镶木地板文件从 s3 导入到 postgresql rds

Sqoop 函数“--map-column-hive”被忽略