使用 Sqoop 将 RDBMS 更新到 HDFS
Posted
技术标签:
【中文标题】使用 Sqoop 将 RDBMS 更新到 HDFS【英文标题】:Getting RDBMS updates into HDFS using Sqoop 【发布时间】:2014-12-04 06:44:54 【问题描述】:我正在尝试编写一个 sqoop 作业以达到以下要求。
-
我有一个 XYZ 表,其中每天可能会创建大约 100 万条新记录和 50 万条更新。
我将完成一个 Sqoop 工作结束,它应该将增量数据从 XYZ 获取到 HDFS,并获取更新的记录并将其与 HDFS 同步。
我很乐意实施第 1 点,但找不到第 2 点的可行解决方案。
请帮忙!!!!
谢谢, 拉古
【问题讨论】:
我的回答对你有帮助吗? 【参考方案1】:对于这种特殊情况,您可以在需要的地方执行增量 sqooplastmodified –check-column last_modified_col –last-value “2014-10-03 15:29:48.66″
请参考以下示例查询示例
sqoop job –create incr1 — import –connect jdbc:mysql://192.168.199.137/testdb123 –username testdb123 –password testdb123 –table Paper_STAGE –incremental lastmodified –check-column last_modified_col –last-value “2014-10-03 15:29:48.66″ –split-by id –hive-table paper_stage –hive-import
Hive 和 HDFS 是可选的,您可以选择其中任何一个来将数据带到任何地方。
【讨论】:
以上是关于使用 Sqoop 将 RDBMS 更新到 HDFS的主要内容,如果未能解决你的问题,请参考以下文章
我们如何使用 SQoop 对从 RDBMS 迁移到 HDFS 的数据进行测试?
除了 SQOOP,还有啥方法可以从 RDBMS 传输到 HDFS?
如何使用 Sqoop 从 RDBMS 将数据导入本地文件系统,而不是 HDFS?