Hadoop之sqoop

Posted _TIM_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop之sqoop相关的知识,希望对你有一定的参考价值。

sqoop产生的原因: 多数使用Hadoop技术的处理大数据业务的企业,有大量的数据存储在关系型数据中。由于没有工具支持,对Hadoop和关系型数据库之间数据传输是一个很困难的事。所以sqoop产生了。

sqoop简介: sqoop是连接关系型数据库和Hadoop的桥梁,主要有两个方面(导入和导出):

  • 将关系型数据库的数据导入到Hadoop及其相关的系统中,如HiveHBase
  • 将数据从Hadoop系统里抽取并导出到关系型数据库

sqoop的优点:

  • 可以高效、可控的利用资源,可以通过调整任务数来控制任务的并发度。
  • 可以自动的完成数据映射和转换。由于导入数据库是有类型的,它可以自动根据数据库中的类型转换到Hadoop中,当然用户也可以自定义它们之间的映射关系。
  • 支持多种数据库,如mysqlorcale等数据库。

sqoop工作的机制: 将导入或导出命令翻译成MapReduce程序来实现在翻译出的,MapReduce中主要是对InputFormatOutputFormat进行定制

离线项目的处理架构流程

以上是关于Hadoop之sqoop的主要内容,如果未能解决你的问题,请参考以下文章

hadoop入门学习系列之六hadoop学习之sqoop安装

Hadoop中级之Sqoop

mysql数据与Hadoop之间导入导出之Sqoop实例

如何将mysql数据导入Hadoop之Sqoop安装

hadoop生态之sqoop

大数据开发之Sqoop详细介绍