Hadoop入门

Posted Diyo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop入门相关的知识,希望对你有一定的参考价值。

 

1 大数据概论

1.1 大数据概念

大数据概念如图2-1 所示。

 

 

 

 

1.2 大数据特点4V

大数据特点如图2-22-32-42-5所示

 

 

 

 

 

 

 

 

 

 

 

 

 

1.3 大数据应用场景

大数据应用场景如图2-62-72-82-92-102-11所示

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.4 大数据发展前景

大数据发展前景如图2-122-132-142-152-16所示

 

            2-12 大数据发展前景之国家政策

 

 

 

 

             2-13 大数据发展前景之国际方面

 

 

 

             2-14 大数据发展前景之高校方面

 

 

 

             2-15 大数据发展前景之平均薪资

 

 

 

             2-16 大数据发展前景之整体薪资

1.5 数据部业务流程分析

大数据部门业务流程分析如图2-17所示。

 

 

 

               2-17 大数据部门业务流程分析

1.6 数据部组织结构(重点)

数据部组织结构,适用于大中型企业,如图2-18所示

 

 

 

               2-18 大数据部组织结构

2 Hadoop框架讨论大数据生态

2.1 Hadoop是什么

 

2.2 Hadoop发展历史

 

 

 

 

2.3 Hadoop三大发行版本

Hadoop三大发行版本:ApacheClouderaHortonworks

  Apache版本最原始(最基础)的版本,对于入门学习最好。

  Cloudera在大型互联网企业中用的较多。

  Hortonworks文档较好。

  1. Apache Hadoop

官网地址:http://hadoop.apache.org/releases.html

下载地址:https://archive.apache.org/dist/hadoop/common/

  1. Cloudera Hadoop

官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html

下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/

12008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。

22009Hadoop的创始人Doug Cutting也加盟Cloudera公司Cloudera产品主要为CDHCloudera ManagerCloudera Support

3CDHClouderaHadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。

4Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。Cloudera Support即是对Hadoop的技术支持。

5Cloudera的标价为每年每个节点4000美元。Cloudera开发并贡献了可实时处理大数据的Impala项目。

3. Hortonworks Hadoop

官网地址:https://hortonworks.com/products/data-center/hdp/

下载地址:https://hortonworks.com/downloads/#data-platform

12011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献,,,Hadoop80%的代码。

3)雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。

4Hortonworks的主打产品是Hortonworks Data PlatformHDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。

5HCatalog,一个元数据管理系统,HCatalog现已集成到Facebook开源的Hive中。HortonworksStinger开创性的极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。

6Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Window ServerWindows Azure在内的Microsoft Windows平台上本地运行。定价以集群为基础,每10个节点每年为12500美元。

2.4 Hadoop的优势4高)

 

2.5 Hadoop组成(面试重点)

 

 

 

           2-21 Hadoop1.xHadoop2.x的区别

2.5.1 HDFS架构概述

HDFSHadoop Distributed File System)的架构概述,如图2-23所示。

 

 

           2-23 HDFS架构概述

2.5.2 YARN架构概述

YARN架构概述,如图2-24所示。

 

 

               2-24  YARN架构概述

2.5.3 MapReduce架构概述

MapReduce将计算过程分为两个阶段:MapReduce,如图2-25所示

1Map阶段并行处理输入数据

2Reduce阶段对Map结果进行汇总

 

 

               2-25 MapReduce架构概述

2.6 大数据技术生态体系

大数据技术生态体系如图2-26所示。

 

 

               2-26  大数据技术生态体系

图中涉及的技术名词解释如下:

1SqoopSqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(mysql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到HadoopHDFS中,也可以将HDFS的数据导进到关系型数据库中。

2FlumeFlumeCloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

3KafkaKafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:

1)通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。

2)高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒数百万的消息

3)支持通过Kafka服务器和消费机集群来分区消息。

4)支持Hadoop并行数据加载。

4StormStorm用于连续计算,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。

5SparkSpark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

6OozieOozie是一个管理Hdoop作业(job)的工作流程调度管理系统。

7HbaseHBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

8HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

10R语言:R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

11Mahout:Apache Mahout是个可扩展的机器学习和数据挖掘库。

12ZooKeeperZookeeperGoogleChubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

2.7 推荐系统框架图

推荐系统项目架构如图2-27所示。

 

 

                 2-27 推荐系统项目架构

3 Hadoop运行环境搭建(开发重点

3.1 虚拟机环境准备

  1. 克隆虚拟机

  2. 修改克隆虚拟机的静态IP

  3. 修改主机名

  4. 关闭防火墙

  5. 创建atguigu用户

  6. 配置atguigu用户具有root权限(详见《尚硅谷大数据技术之Linux》)

  7/opt目录下创建文件夹

1)在/opt目录下创建modulesoftware文件夹

[atguigu@hadoop101 opt]$ sudo mkdir module

[atguigu@hadoop101 opt]$ sudo mkdir software

2)修改modulesoftware文件夹的所有者cd

[atguigu@hadoop101 opt]$ sudo chown atguigu:atguigu module/ software/

[atguigu@hadoop101 opt]$ ll

总用量 8

drwxr-xr-x. 2 atguigu atguigu 4096 1月  17 14:37 module

drwxr-xr-x. 2 atguigu atguigu 4096 1月  17 14:38 software

3.2 安装JDK

1. 卸载现有JDK

1)查询是否安装Java软件:

[atguigu@hadoop101 opt]$ rpm -qa | grep java

2)如果安装的版本低于1.7,卸载该JDK

[atguigu@hadoop101 opt]$ sudo rpm -e 软件包

3查看JDK安装路径:

[atguigu@hadoop101 ~]$ which java

2. SecureCRT工具将JDK导入到opt目录下面的software文件夹下面,如图2-28所示

 

 

                   2-28  导入JDK

“alt+p”进入sftp模式,如图2-29所示

 

 

                   2-29 进入sftp模式

选择jdk1.8拖入,如图2-302-31所示

 

 

                   2-30 拖入jdk1.8

 

 

                   2-31 拖入jdk1.8完成

3.在Linux系统下的opt目录中查看软件包是否导入成功

[atguigu@hadoop101 opt]$ cd software/
[atguigu@hadoop101 software]$ ls
hadoop-2.7.2.tar.gz  jdk-8u144-linux-x64.tar.gz

4.解压JDK/opt/module目录下

[atguigu@hadoop101 software]$ tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/

5. 配置JDK环境变量

1)先获取JDK路径

[atguigu@hadoop101 jdk1.8.0_144]$ pwd
/opt/module/jdk1.8.0_144

2)打开/etc/profile文件

[atguigu@hadoop101 software]$ sudo vi /etc/profile

profile文件末尾添加JDK路径

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin

3)保存后退出

:wq

4)让修改后的文件生效

[atguigu@hadoop101 jdk1.8.0_144]$ source /etc/profile

6. 测试JDK是否安装成功

[atguigu@hadoop101 jdk1.8.0_144]# java -version
java version "1.8.0_144"

  注意:重启(如果java -version可以用就不用重启)

[atguigu@hadoop101 jdk1.8.0_144]$ sync
[atguigu@hadoop101 jdk1.8.0_144]$ sudo reboot

3.3 安装Hadoop

0.  Hadoop下载地址

https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/

  1. SecureCRT工具将hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面

切换到sftp连接页面,选择Linux下编译的hadoop jar包拖入,如图2-32所示

 

 

                   2-32 拖入hadooptar

 

 

                   2-33 拖入Hadooptar包成功

  2.进入到Hadoop安装包路径下

[atguigu@hadoop101 ~]$ cd /opt/software/

  3.解压安装文件到/opt/module下面

[atguigu@hadoop101 software]$ tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/

  4.查看是否解压成功

[atguigu@hadoop101 software]$ ls /opt/module/

hadoop-2.7.2

  5. Hadoop添加到环境变量

1)获取Hadoop安装路径

[atguigu@hadoop101 hadoop-2.7.2]$ pwd

/opt/module/hadoop-2.7.2

2)打开/etc/profile文件

[atguigu@hadoop101 hadoop-2.7.2]$ sudo vi /etc/profile

profile文件末尾添加JDK路径:(shitf+g

##HADOOP_HOME

export HADOOP_HOME=/opt/module/hadoop-2.7.2

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

3)保存后退出

:wq

4)让修改后的文件生效

[atguigu@ hadoop101 hadoop-2.7.2]$ source /etc/profile

6. 测试是否安装成功

[atguigu@hadoop101 hadoop-2.7.2]$ hadoop version

Hadoop 2.7.2

7. 重启(如果Hadoop命令不能用再重启)

[atguigu@ hadoop101 hadoop-2.7.2]$ sync

[atguigu@ hadoop101 hadoop-2.7.2]$ sudo reboot

3.4 Hadoop目录结构

1查看Hadoop目录结构

[atguigu@hadoop101 hadoop-2.7.2]$ ll

总用量 52

drwxr-xr-x. 2 atguigu atguigu  4096 5月  22 2017 bin

drwxr-xr-x. 3 atguigu atguigu  4096 5月  22 2017 etc

drwxr-xr-x. 2 atguigu atguigu  4096 5月  22 2017 include

drwxr-xr-x. 3 atguigu atguigu  4096 5月  22 2017 lib

drwxr-xr-x. 2 atguigu atguigu  4096 5月  22 2017 libexec

-rw-r--r--. 1 atguigu atguigu 15429 5月  22 2017 LICENSE.txt

-rw-r--r--. 1 atguigu atguigu   101 5月  22 2017 NOTICE.txt

-rw-r--r--. 1 atguigu atguigu  1366 5月  22 2017 README.txt

drwxr-xr-x. 2 atguigu atguigu  4096 5月  22 2017 sbin

drwxr-xr-x. 4 atguigu atguigu  4096 5月  22 2017 share

2、重要目录

1bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本

2etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件

3lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)

4sbin目录:存放启动或停止Hadoop相关服务的脚本

5share目录:存放Hadoop的依赖jar文档和官方案例

4 Hadoop运行模式

Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。

Hadoop官方网站:http://hadoop.apache.org/

4.1 本地运行模式

4.1.1 官方Grep案例

1. 创建在hadoop-2.7.2文件下面创建一个input文件夹

[atguigu@hadoop101 hadoop-2.7.2]$ mkdir input

2. Hadoopxml配置文件复制到input

[atguigu@hadoop101 hadoop-2.7.2]$ cp etc/hadoop/*.xml input

3. 执行share目录下的MapReduce程序

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hadoop jar

share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output \'dfs[a-z.]+\'

4. 查看输出结果

[atguigu@hadoop101 hadoop-2.7.2]$ cat output/*

4.1.2 官方WordCount案例

1. 创建在hadoop-2.7.2文件下面创建一个wcinput文件夹

[atguigu@hadoop101 hadoop-2.7.2]$ mkdir wcinput

2. wcinput文件下创建一个wc.input文件

[atguigu@hadoop101 hadoop-2.7.2]$ cd wcinput

[atguigu@hadoop101 wcinput]$ touch wc.input

3. 编辑wc.input文件

[atguigu@hadoop101 wcinput]$ vi wc.input

在文件中输入如下内容

hadoop yarn

hadoop mapreduce

atguigu

atguigu

保存退出::wq

4. 回到Hadoop目录/opt/module/hadoop-2.7.2

5. 执行程序

[atguigu@hadoop101 hadoop-2.7.2]$ hadoop jar

 share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

6. 查看结果

[atguigu@hadoop101 hadoop-2.7.2]$ cat wcoutput/part-r-00000

atguigu 2

hadoop  2

mapreduce       1

yarn    1

4.2 伪分布式运行模式

4.2.1 启动HDFS并运行MapReduce程序

1. 分析

1)配置集群

2)启动、测试集群增、删、查

3)执行WordCount案例

2. 执行步骤

1)配置集群

a)配置:hadoop-env.sh

Linux系统中获取JDK的安装路径:

[atguigu@ hadoop101 ~]# echo $JAVA_HOME

/opt/module/jdk1.8.0_144

修改JAVA_HOME 路径:

export JAVA_HOME=/opt/module/jdk1.8.0_144

b)配置:core-site.xml

<!-- 指定HDFSNameNode的地址 -->

<property>

<name>fs.defaultFS</name>

    <value>hdfs://hadoop101:9000</value>

</property>

 

<!-- 指定Hadoop运行时产生文件的存储目录 -->

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/module/hadoop-2.7.2/data/tmp</value>

</property>

c)配置:hdfs-site.xml

<!-- 指定HDFS副本的数量 -->

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

2)启动集群

a格式化NameNode(第一次启动时格式化,以后就不要总格式化)

[atguigu@hadoop101 hadoop-2.7.2]$ bin/hdfs namenode -format

b)启动NameNode

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode

c)启动DataNode

[atguigu@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start datanode

3)查看集群

a)查看是否启动成功

[atguigu@hadoop101 hadoop-2.7.2]$ jps

13586 NameNode

13668 DataNode

13786 Jps

注意jpsJDK中的命令,不是Linux命令。安装JDK不能使用jps

bweb端查看HDFS文件系统

http://hadoop101:50070/dfshealth.html#tab-overview

注意:如果不能查看,看如下帖子处理

http://www.cnblogs.com/zlslch/p/6604189.html

c)查看产生的Log日志

  说明企业中遇到Bug时经常根据日志提示信息去分析问题、解决Bug。

当前目录:/opt/module/hadoop-2.7.2/logs

[atguigu@hadoop101 logs]$ ls

hadoop-atguigu-datanode-hadoop.atguigu.com.log

hadoop-atguigu-datanode-hadoop.atguigu.com.out

hadoop-atguigu-namenode-hadoop.atguigu.com.log

hadoop-atguigu-namenode-hadoop.atguigu.com.out

SecurityAuth-root.audit

[atguigu@hadoop101 logs]# cat hadoop-atguigu-datanode-hadoop101.log

d)思考:为什么不能一直格式化NameNode,格式化NameNode,要注意什么?

[atguigu@hadoop101 hadoop-2.7.2]$ cd data/tmp/dfs/name/current/

[atguigu@hadoop101 current]$ cat VERSION

clusterID=CID-f0330a58-36fa-4a2a-a65f-2688269b5837

 

[atguigu@hadoop101 hadoop-2.7.2]$ cd data/tmp/dfs/data/current/

clusterID=CID-f0330a58-36fa-4a2a-a65f-2688269b5837

 

注意格式化NameNode,会产生新的集群id,导致NameNodeDataNode的集群id不一致,集群不到已Hadoop快速入门

Atom编辑器入门到精通 Atom使用进阶

Hadoop HDFS编程 API入门系列之RPC版本2

hadoop入门学习系列之六hadoop学习之sqoop安装

Hadoop HDFS编程 API入门系列之简单综合版本1

Hadoop HDFS编程 API入门系列之HdfsUtil版本1