使用 Sqoop 将 RDBMS 更新到 HDFS

Posted 2023-04-17

技术标签:

【中文标题】使用 Sqoop 将 RDBMS 更新到 HDFS【英文标题】：Getting RDBMS updates into HDFS using Sqoop 【发布时间】：2014-12-04 06:44:54 【问题描述】：

我正在尝试编写一个 sqoop 作业以达到以下要求。

我有一个 XYZ 表，其中每天可能会创建大约 100 万条新记录和 50 万条更新。我将完成一个 Sqoop 工作结束，它应该将增量数据从 XYZ 获取到 HDFS，并获取更新的记录并将其与 HDFS 同步。

我很乐意实施第 1 点，但找不到第 2 点的可行解决方案。

请帮忙！！！！

谢谢，拉古

【问题讨论】：

我的回答对你有帮助吗？ 【参考方案1】：

对于这种特殊情况，您可以在需要的地方执行增量 sqooplastmodified –check-column last_modified_col –last-value “2014-10-03 15:29:48.66″

请参考以下示例查询示例

sqoop job –create incr1 — import –connect jdbc:mysql://192.168.199.137/testdb123 –username testdb123 –password testdb123 –table Paper_STAGE –incremental lastmodified –check-column last_modified_col –last-value “2014-10-03 15:29:48.66″ –split-by id –hive-table paper_stage –hive-import

Hive 和 HDFS 是可选的，您可以选择其中任何一个来将数据带到任何地方。

【讨论】：

以上是关于使用 Sqoop 将 RDBMS 更新到 HDFS的主要内容，如果未能解决你的问题，请参考以下文章

我们如何使用 SQoop 对从 RDBMS 迁移到 HDFS 的数据进行测试？

除了 SQOOP，还有啥方法可以从 RDBMS 传输到 HDFS？

如何使用 Sqoop 从 RDBMS 将数据导入本地文件系统，而不是 HDFS？

使用 Apache Sqoop 将数据从 Mongo/Cassandra 导出到 HDFS

sqoop