『教程』Hadoop基础
Posted 万码学堂
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了『教程』Hadoop基础相关的知识,希望对你有一定的参考价值。
本教程系根据万码学堂崔博士课堂讲义整理,共分四篇连载,带领大家一步步认识Hadoop的基础知识,最后通过实例让大家掌握Hadoop实际应用。喜欢的小伙伴请关注我,后续还会有更多更好的教程送给大家。
Hadoop安装配置
1、运行模式
1)、本地模式
2)、伪分布式模式
3)、完全分布式模式
2、配置HDFS
2)、配置ssh无密码登录。
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
3)、拷贝hadoop的tar包到虚拟机并解压缩。
目录说明:
· bin:Hadoop最基本的管理脚本和使用脚本的目录。
· etc:配置文件所在目录。
· include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),通常用于C++
· lib:包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用
· libexec:可用于配置日志输出、启动参数(比如JVM参数)等基本信息。
· sbin:各种启动停止的脚本,利用bin目录下的命令完成。
· share:存放Hadoop各个模块编译后的jar包。
4)、编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh:
· JAVA_HOME = /home/xccui/bigdata/jdk.1.8.0_162 #修改成本机JAVA_HOME目录
· HADOOP_HOME = /home/xccui/bigdata/hadoop-3.1.0 #修改成本机Hadoop所在目录
5)、编辑$HADOOP_HOME/etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/xccui/bigdata/tmp #一个存在的目录</value>
</property>
</configuration>
6)、修改$HADOOP_HOME/etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
7)、使用以下命令格式化HDFS文件系统:
$HADOOP_HOME/bin/hdfs namenode –format
格式化后产生的文件说明:
· fsimage*文件其实是Hadoop文件系统元数据的一个永久性的检查点,其中包含Hadoop文件系统中的所有目录和文件idnode的序列化信息;
· fsimage*.md5 是校验文件,用于校验fsimage的完整性。
· edits文件存放的是Hadoop文件系统的所有更新操作的路径,文件系统客户端执行的所以写操作首先会被记录到edits文件中。
· seen_txid ,是存放transactionId的文 件,format之后是0,它代表的是namenode里面的edits_*文件的尾数。
· VERSION文件记录了版本信息,用来记录一些状态。
8)、通过以下脚本启动/停止HDFS:
$HADOOP_HOME/sbin/start-dfs.sh和stop-dfs.sh
9)、通过Web(http://虚拟机IP:9870/)监控HDFS集群情况。
TIP:Hadoop 3.0.0-alpha1版本后一些默认端口发生了改变。
Namenode ports: 50470 --> 9871, 50070 --> 9870, 8020 --> 9820Secondary NN ports: 50091 --> 9869, 50090 --> 9868Datanode ports: 50020 --> 9867, 50010 --> 9866, 50475 --> 9865, 50075 --> 9864
3、配置YARN
1)、修改$HADOOP_HOME/etc/hadoop/mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
2)、修改$HADOOP_HOME/etc/hadoop/ yarn-site.xml:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata-senior01.chybinmy.com</value>
</property>
<configuration>
3)、通过以下脚本启动/停止YARN:
$HADOOP_HOME/sbin/start-yarn.sh和stop-yarn.sh
4)、通过Web(http://虚拟机IP:8088/)监控YARN集群情况。
关注万码学堂,每天都会进步
以上是关于『教程』Hadoop基础的主要内容,如果未能解决你的问题,请参考以下文章
Hadoop基础教程1Hadoop之服务器基础环境搭建(转)