如何将数据从 mysql 导入 Apache Hadoop HDFS 安装。

Posted

技术标签:

【中文标题】如何将数据从 mysql 导入 Apache Hadoop HDFS 安装。【英文标题】:how to import data from mysql to Apache Hadoop HDFS installation. 【发布时间】:2012-06-11 12:38:59 【问题描述】:

如何将数据从mysql导入HDFS。我不能使用 sqoop,因为它是 HDFS 安装而不是 cloudera。我使用下面的链接来设置 HDFS。我的hadoop版本是0.20.2 http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/

【问题讨论】:

我看不出是什么阻止了您使用 Sqoop,因为它与 Cloudera 特定软件没有任何关联。 你能指导我如何配置 Sqoop 吗? 我可以通过安装 HIVE 来做到这一点,而不是使用 HIVE 将 txt 文件导入 HDFS。 ..谢谢大家 【参考方案1】:

与您的问题没有直接关系,但如果您想将数据库用作 Map Reduce 作业的输入,并且不想复制到 HDFS,您可以使用 DBInputFormat 直接从数据库输入。

【讨论】:

【参考方案2】:

除了 sqoop,你可以试试hiho。我听说过它的好消息。 (虽然没用过)

但我所看到的大多数情况是人们最终编写自己的流程来执行此操作。如果 hiho 不成功,您可以使用 mysqlimport 从 MySql 转储数据。然后使用 map-reduce 作业或 Pig/Hive 加载到 HDFS。

听说 Sqoop 很不错,被广泛使用(这又是道听途说,我自己没用过)。既然it is an apache incubator project,我认为它可能已经开始支持hadoop 的apache 版本,或者至少可能减少了非cloudera 版本的痛苦。 The doc 确实说它支持 Apache hadoop v0.21。尝试使其适用于您的 hadoop 版本。可能没那么难。

【讨论】:

以上是关于如何将数据从 mysql 导入 Apache Hadoop HDFS 安装。的主要内容,如果未能解决你的问题,请参考以下文章

如何使用mongo-connector将数据从mongodb导入到apache solr

如何正确地将数据从 *.csv 文件导入 mysql 数据库中的给定表

如何将数据库从数百 MB 的大型 SQL 文件导入 MySQL

sqoop从mysql导入hive的一些问题

如何在 Java 中使用 ODBC 将 Excel 文件导入 MySQL?

Sqoop1.99.7将MySQL数据导入到HDFS中