如何将数据从 mysql 导入 Apache Hadoop HDFS 安装。
Posted
技术标签:
【中文标题】如何将数据从 mysql 导入 Apache Hadoop HDFS 安装。【英文标题】:how to import data from mysql to Apache Hadoop HDFS installation. 【发布时间】:2012-06-11 12:38:59 【问题描述】:如何将数据从mysql导入HDFS。我不能使用 sqoop,因为它是 HDFS 安装而不是 cloudera。我使用下面的链接来设置 HDFS。我的hadoop版本是0.20.2 http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/
【问题讨论】:
我看不出是什么阻止了您使用 Sqoop,因为它与 Cloudera 特定软件没有任何关联。 你能指导我如何配置 Sqoop 吗? 我可以通过安装 HIVE 来做到这一点,而不是使用 HIVE 将 txt 文件导入 HDFS。 ..谢谢大家 【参考方案1】:与您的问题没有直接关系,但如果您想将数据库用作 Map Reduce 作业的输入,并且不想复制到 HDFS,您可以使用 DBInputFormat 直接从数据库输入。
【讨论】:
【参考方案2】:除了 sqoop,你可以试试hiho。我听说过它的好消息。 (虽然没用过)
但我所看到的大多数情况是人们最终编写自己的流程来执行此操作。如果 hiho 不成功,您可以使用 mysqlimport 从 MySql 转储数据。然后使用 map-reduce 作业或 Pig/Hive 加载到 HDFS。
听说 Sqoop 很不错,被广泛使用(这又是道听途说,我自己没用过)。既然it is an apache incubator project,我认为它可能已经开始支持hadoop 的apache 版本,或者至少可能减少了非cloudera 版本的痛苦。 The doc 确实说它支持 Apache hadoop v0.21。尝试使其适用于您的 hadoop 版本。可能没那么难。
【讨论】:
以上是关于如何将数据从 mysql 导入 Apache Hadoop HDFS 安装。的主要内容,如果未能解决你的问题,请参考以下文章
如何使用mongo-connector将数据从mongodb导入到apache solr
如何正确地将数据从 *.csv 文件导入 mysql 数据库中的给定表
如何将数据库从数百 MB 的大型 SQL 文件导入 MySQL