大数据基本操作课程笔记

Posted shi_zi_183

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据基本操作课程笔记相关的知识,希望对你有一定的参考价值。

课程目标

1、安装hadoop
2、尝试单机模式,伪分布模式,分布模式

课前环境

master、slave1、slave2三台虚拟机,可以相互ping通,可以免密登录,安装了jdk1.8.0,zookeeper,同步时钟。

安装hadoop

这里使用的hadoop-3.3.0.tar.gz
在这里插入图片描述
是二进制包,不需要编译,解压即可。
解压hadoop

tar -zxvf hadoop-3.3.0.tar.gz -C /usr/local

在这里插入图片描述
重命名hadoop根目录

mv /usr/local/hadoop-3.3.0/ /usr/local/hadoop

在这里插入图片描述
添加环境变量
这里因为我们只希望hadoop用户启动hadoop所以我们这里对环境变量的设置在
/home/hadoop/.bashrc进行。
这个脚本文件仅会在对应用户启动时被系统调用,这样就实现了用户个性化设置。

vi ~/.bashrc 

在这里插入图片描述

这里将hadoop的bin和sbin目录写入了环境变量。
我们之前安装jdk的时候在profile中定义过了JAVA_HOME,这里需要重新定义,因为profile定义的变量虽然所有用户都可以使用,但是之后启动hadoop脚本时,会提示无法取到,我们需要在.bashrc中重新声明。
或者修改
/usr/local/hadoop/etc/hadoop/hadoop-env.sh
将其中的JAVA_HOME写成绝对路径。
使环境变量立即生效

source .bashrc 

检查hadoop

 hadoop version

在这里插入图片描述

配置单机模式

单机模式直接使用hadoop不须修改配置文件。
注意在这之前一定要先切换hadoop用户。

su hadoop

新建输入目录

mkdir /usr/local/hadoop/input

放入测试文件
这里使用hadoop配置文件做测试文件(是什么都无所谓,有内容就行)

cp /usr/local/hadoop/etc/hadoop/*.xml /usr/local/hadoop/input/

执行样例程序中的单词计数

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount /usr/local/hadoop/input/ /usr/local/hadoop/output

其中 /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar是使用的jar包
wordcount 是程序名称
/usr/local/hadoop/input/ 是我们放入统计文件的输入目录
/usr/local/hadoop/output 是结果文件的输出目录(这个目录不能新建不然会报错)。

查看结果

ll /usr/local/hadoop/output/
cat /usr/local/hadoop/output/*

在这里插入图片描述
目录下有_SUCCESS证明运行成功。
在这里插入图片描述

配置伪分布式

伪分布就是由master同时充当namenode和datanode。
修改主配置文件

 vi /usr/local/hadoop/etc/hadoop/core-site.xml

hadoop配置文件是xml格式的,修改参数时要按照xml格式。
配置项写在configuration标签里,这个标签不开缺省不然会报错。
一个配置项一个property标签。
property一般包含三种标签:
name:表示配置项名称
value:表示配置项值
description:表示对配置项的描述
在这里插入图片描述

hadoop.tmp.dir是hadoop存放临时文件的目录,默认是在/tmp
为了防止意外关机导致tmp情况,建议放在持久化目录下。
fs.defaultFS是设置hdfs的默认根目录地址,并指定datanode向namenode发送心跳的地址。
这里应该是master或master的ip地址+开启端口
配置hdfs配置文件

 vi /usr/local/hadoop/etc/hadoop/hdfs-site.xml

在这里插入图片描述
dfs.replication是数据块的备份份数,默认3块,备份越多,冗余越高,安全性越好。
dfs.namenode.name.dir是保存FsImage镜像的目录,作用是存放hadoop的名称节点namenode里的metadata;dfs.datanode.data.dir是存放HDFS文件系统数据文件的目录,作用是存放hadoop的数据节点datanode里的多个数据块。
dfs.http.address 是hadoop http服务器的地址与监听端口。

格式化名称节点

 hadoop namenode -format

在这里插入图片描述
注意这里格式化一定要使用hadoop用户,不然创建的新文件不是hadoop用户,会导致无法启动。
启动hadoop

start-dfs.sh 

在这里插入图片描述
成功启动
验证hadoop
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
成功

配置分布式

修改主配置文件

 vi /usr/local/hadoop/etc/hadoop/core-site.xml

与伪分布一样
在这里插入图片描述
修改hdfs配置文件
增加一个备用namenode——httpd服务器

 vi /usr/local/hadoop/etc/hadoop/hdfs-site.xml

在这里插入图片描述
修改mapred配置文件

vi /usr/local/hadoop/etc/hadoop/mapred-site.xml 

在这里插入图片描述

在这里插入图片描述
mapreduce.jobtracker.address 值改为master+端口号,标明jobtracker的地址与端口
mapreduce.jobhistory.address 值改为master+端口号,表名jobhistory的地址与端口
mapreduce.jobhistory.webapp.address 值改为master_ip+端口号,表名web界面的地址

修改workers

vi /usr/local/hadoop/etc/hadoop/workers

在这里插入图片描述
写入工作节点的主机名。
修改yarn配置文件
在这里插入图片描述
yarn.resourcemanager.hostname 改为master
yarn.resourcemanager.webapp.address 改为master_ip+端口号
删除master下的log,tmp
这个log,tmp是伪分布下生成的,我们需要删除从新生成
注意:打包复制之前一定要先删除原先的文件。

打包配置好的hadoop

 tar -zcvf hadoop.tar.gz hadoop/

子节点获取hadoop并解压

scp hadoop@master:/usr/local/hadoop.tar.gz ./hadoop.tar.gz
tar -zxvf hadoop.tar.gz -C /usr/local/

初始化master的namenode
master输入

hadoop namenode -format

在这里插入图片描述

启动分布式
master输入

start-all.sh

在这里插入图片描述

检查是否启动
master
在这里插入图片描述
slave1、slave2
在这里插入图片描述
在这里插入图片描述

以上是关于大数据基本操作课程笔记的主要内容,如果未能解决你的问题,请参考以下文章

HTML5期末大作业:餐饮美食网站设计——咖啡(10页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 咖啡网页设计 美食餐饮网页设计...(代码片段

课程笔记大数据处理

清华大学操作系统(陈渝,向勇)课程笔记——虚拟内存

大数据IMF-L38-MapReduce内幕解密听课笔记及总结

AngularJS入门学习笔记一

NTU 课程笔记 CV6422 Statistical Methods & Applications 基本统计知识