使用 Sqoop 将 RDBMS 更新到 HDFS

Posted

技术标签:

【中文标题】使用 Sqoop 将 RDBMS 更新到 HDFS【英文标题】:Getting RDBMS updates into HDFS using Sqoop 【发布时间】:2014-12-04 06:44:54 【问题描述】:

我正在尝试编写一个 sqoop 作业以达到以下要求。

    我有一个 XYZ 表,其中每天可能会创建大约 100 万条新记录和 50 万条更新。 我将完成一个 Sqoop 工作结束,它应该将增量数据从 XYZ 获取到 HDFS,并获取更新的记录并将其与 HDFS 同步。

我很乐意实施第 1 点,但找不到第 2 点的可行解决方案。

请帮忙!!!!

谢谢, 拉古

【问题讨论】:

我的回答对你有帮助吗? 【参考方案1】:

对于这种特殊情况,您可以在需要的地方执行增量 sqooplastmodified –check-column last_modified_col –last-value “2014-10-03 15:29:48.66″

请参考以下示例查询示例

sqoop job –create incr1 — import –connect jdbc:mysql://192.168.199.137/testdb123 –username testdb123 –password testdb123 –table Paper_STAGE –incremental lastmodified –check-column last_modified_col –last-value “2014-10-03 15:29:48.66″ –split-by id –hive-table paper_stage –hive-import

HiveHDFS 是可选的,您可以选择其中任何一个来将数据带到任何地方。

【讨论】:

以上是关于使用 Sqoop 将 RDBMS 更新到 HDFS的主要内容,如果未能解决你的问题,请参考以下文章

我们如何使用 SQoop 对从 RDBMS 迁移到 HDFS 的数据进行测试?

除了 SQOOP,还有啥方法可以从 RDBMS 传输到 HDFS?

如何使用 Sqoop 从 RDBMS 将数据导入本地文件系统,而不是 HDFS?

使用 Apache Sqoop 将数据从 Mongo/Cassandra 导出到 HDFS

sqoop

sqoop