『教程』Hadoop基础

Posted 万码学堂

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了『教程』Hadoop基础相关的知识,希望对你有一定的参考价值。

本教程系根据万码学堂崔博士课堂讲义整理,共分四篇连载,带领大家一步步认识Hadoop的基础知识,最后通过实例让大家掌握Hadoop实际应用。喜欢的小伙伴请关注我,后续还会有更多更好的教程送给大家。

Hadoop安装配置

1、运行模式

1)、本地模式

2)、伪分布式模式

3)、完全分布式模式

2、配置HDFS

2)、配置ssh无密码登录。

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

$ chmod 0600 ~/.ssh/authorized_keys

3)、拷贝hadoop的tar包到虚拟机并解压缩。

目录说明:

· bin:Hadoop最基本的管理脚本和使用脚本的目录。

· etc:配置文件所在目录。

· include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),通常用于C++

· lib:包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用

· libexec:可用于配置日志输出、启动参数(比如JVM参数)等基本信息。

· sbin:各种启动停止的脚本,利用bin目录下的命令完成。

· share:存放Hadoop各个模块编译后的jar包。

4)、编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh:

· JAVA_HOME = /home/xccui/bigdata/jdk.1.8.0_162 #修改成本机JAVA_HOME目录

· HADOOP_HOME = /home/xccui/bigdata/hadoop-3.1.0 #修改成本机Hadoop所在目录

5)、编辑$HADOOP_HOME/etc/hadoop/core-site.xml:

<configuration>

<property>

<name>fs.defaultFS</name>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/xccui/bigdata/tmp #一个存在的目录</value>

</property>

</configuration>

6)、修改$HADOOP_HOME/etc/hadoop/hdfs-site.xml:

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>

7)、使用以下命令格式化HDFS文件系统:

$HADOOP_HOME/bin/hdfs namenode –format

格式化后产生的文件说明:

· fsimage*文件其实是Hadoop文件系统元数据的一个永久性的检查点,其中包含Hadoop文件系统中的所有目录和文件idnode的序列化信息;

· fsimage*.md5 是校验文件,用于校验fsimage的完整性。

· edits文件存放的是Hadoop文件系统的所有更新操作的路径,文件系统客户端执行的所以写操作首先会被记录到edits文件中。

· seen_txid ,是存放transactionId的文 件,format之后是0,它代表的是namenode里面的edits_*文件的尾数。

· VERSION文件记录了版本信息,用来记录一些状态。

8)、通过以下脚本启动/停止HDFS:

$HADOOP_HOME/sbin/start-dfs.sh和stop-dfs.sh

9)、通过Web(http://虚拟机IP:9870/)监控HDFS集群情况。

TIP:Hadoop 3.0.0-alpha1版本后一些默认端口发生了改变。

Namenode ports: 50470 --> 9871, 50070 --> 9870, 8020 --> 9820Secondary NN ports: 50091 --> 9869, 50090 --> 9868Datanode ports: 50020 --> 9867, 50010 --> 9866, 50475 --> 9865, 50075 --> 9864

3、配置YARN

1)、修改$HADOOP_HOME/etc/hadoop/mapred-site.xml:

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

2)、修改$HADOOP_HOME/etc/hadoop/ yarn-site.xml:

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>bigdata-senior01.chybinmy.com</value>

</property>

<configuration>

3)、通过以下脚本启动/停止YARN:

$HADOOP_HOME/sbin/start-yarn.sh和stop-yarn.sh

4)、通过Web(http://虚拟机IP:8088/)监控YARN集群情况。



关注万码学堂,每天都会进步


以上是关于『教程』Hadoop基础的主要内容,如果未能解决你的问题,请参考以下文章

『教程』Hadoop基础

Hadoop基础教程1Hadoop之服务器基础环境搭建(转)

『教程』Hadoop基础

『教程』Hadoop基础

视频教程:hadoop基础及演练 hadoop视频教程 hadoop从入门到精通的学习

《Hadoop基础教程》之初识Hadoop