如何在Ubuntu下安装伪分布hadoop

Posted 张人玉

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在Ubuntu下安装伪分布hadoop相关的知识,希望对你有一定的参考价值。

首先要准备一些东西 

1.虚拟机

2.Xshell

  

3.Xftp

  

4.Ubuntu的镜像文件

5.jdk的包(Linux版)

6.Hadoop的镜像文件(Hadoop的包)

7.eclipse(linux版)

首先下载虚拟机

进入虚拟机官网下载: 

https://www.vmware.com/cn/products/workstation-pro.html

Xshell 

进入官网下载 

XSHELL - NetSarang Website

Xftp 

进入官网下载

XFTP - NetSarang Website (xshell.com)

Ubuntu

进入官网下载
https://cn.ubuntu.com/download/desktop
 

jdk的包

进入官网 

https://www.oracle.com/java/technologies/downloads/#java8-linux

Hadoop镜像文件

清华大学管网:

https://mirrors.tuna.tsinghua.edu.cn/apac he/hadoop/common/

eclipse(linux)

https://archive.eclipse.org/technology/epp/downloads/release/2020-12/R

以上网站大部分都需要花钱,也可以选择我的资源包

关注我的博客号

搜索:在Ubuntu上安装hadoop

下载资源包(ubuntu镜像文件需要自己下载其它的都有) 

准备工作已经做好了

我们现在可以开始安装了

1.创建一个虚拟机

 

2.启动系统

进入之后

ctrl+alt可以将鼠标推出虚拟机的界面

 

会有一段时间黑屏,这是正常现象请耐心等待,第一次的过程比较缓慢

 

然后需要等待一会,程序自动完成之后,会重新启动

 

 

连接Xshell

说明:需要提前先安装好 Xshell 和 Xftp

输入之后,可能中间会中断一次,不要担心,按enter继续就可以了 

 

 

 jdk的包(Linux版)

Hadoop的镜像文件(Hadoop的包)

eclipse(linux版)

这几个包从winws转到虚拟机中

开始下一步操作

(1)安装jdk和hadoop

先解压文件

输入代码
jdk-8u301-linux-x64.tar.gz 是文件名,要改成自己的文件名
hadoop-2.10.1.tar.gz 是文件名,要改成自己的文件名
$ tar -zxvf jdk-8u301-linux-x64.tar.gz
$ tar -zxvf hadoop-2.10.1.tar.gz

 

 

移动至 /usr/local 路径下
移动jdk

$ sudo mv jdk1.8.0_301 /usr/local/jdk1.80

移动hadoop

$ sudo mv jdk1.8.0_301 /usr/local/jdk1.80
安装 vim 编辑器,不安装的话可以使用自带的 vi 编辑器 (功能相对少)
$ sudo apt install vim
打开环境变量配置文件
$ sudo vim /etc/profile
在文件末尾插入以下定义
export JAVA_HOME=/usr/local/jdk1.8.0
export HADOOP_HOME=/usr/local/hadoop-2.10.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/Sbin

按Esc

然后输入

:wq

 

如果出现这种情况退出不了 

 

先输入

:set noreadonly
在按Esc 在输入
:wq

更新环境变量

$ source /etc/profile

测试是否配置成功

测试Hadoop是否安装完成

$ hadoop version

测试Java是否安装完成
$ java -version

 配置Hadoop

建立保存临时目录的路径
$ sudo mkdir -p /usr/data/hadoop/tmp

Hadoop 默认启动的时候使用的是系统下的 /temp 目录下,但 是在每一次重启的时候系统都会将其自动清空 ,如果没有临 时的储存目录有可能会在下一次启动 Hadoop 的时候出现 问题。

 

为防止 Hadoop 运行时出现权限的问题,需要将 /usr/data 目 录及其子目录的拥有者全部从 root 改为用户名。
$ sudo chown sillin:silin -R /usr/data

(这里以本机用户名 silin 为例。) 进入 hadoop 安装文件下的/etc/hadoop/文件夹中 编辑 hadoop-env.sh 脚本文件

 

 

 

 

 

 

 

 

$JAVA_HOME 改为 jdk 的实际安装路径

 

编辑 core-site.xml 配置文件

 

<configuration>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/usr/data/hadoop/tmp</value>
	</property>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://zhangjinlei:9000</value>
	</property>
</configuration>
(其中圈起来的 zhangsanshi-virtual-machine   hostname 。) 编辑 hdfs-site.xml 的配置文件
<configuration>
	<property>
		<name>dfs.replication</name>
		<value>1</value>
</configuration>

mapred-site.xml.template 更名为 mapred-site.xml 并编辑

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>
编辑 yarn-site.xml

 

<configuration>
	<!-- Site specific YARN configuration properties -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>zhangsanshi-virtual-machine</value>
	</property>
	<propert>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
</configuration>
) 格式化 HDFS
$ hdfs namenode -format

启动

$ start-dfs.sh
$ start-yarn.sh

检验

$ jps

四、安装 Java 开发环境 解压 eclipse 文件
$ tar -zxvf eclipse-java-2021-09-R-linux-gtk-x86_64.tar.gz

安装

$ sudo mv eclipse/ /usr/local/

启动

先输入 

$ cd /usr/local/eclipse/

在输入

$ ./eclipse

 

 

 

 

HDFS Java API 所需添加的 Jar 包如下表所示: 目录                              Jar 包 /usr/local/Hadoop-2.10.1/share/hadoop/common    hadoop-common-2.7.1.jar /haoop-nfs-2.7.1.jar /usr/local/ hadoop-2.10.1/share/hadoop/common/lib    所有 Jar /usr/local/hadoop-2.10.1/share/hadoop/hdfs          haoop-hdfs-2.7.1.jar /haoop-hdfs-nfs-2.7.1.jar /usr/local/hadoop-2.10.1/share/hadoop/hdfs/lib       所有 Jar 包

 设置ssh免密登录

安装 ssh
$ sudo apt install openssh-server
添加 ssh.service 服务
$ systemctl enable ssh.service
启动 ssh 服务进程
$ service sshd start
生成密钥对,输入以下命令后连续敲击 3 次回车键
$ ssh-keygen -t rsa
~/.ssh/ 目录下生成了公钥和私钥 id_rsa id_rsa.pub 追加公钥至本机 authorized_keys
$ ssh-copy-id -i ~/.ssh/id_rsa.pub zhangsanshi

指令尾部的 ubuntu 为本机的 hostname (安装 ubuntu 虚拟机 时个人设置),输入该指令时请替换为你的 hostname hostname 可通过 $hostname 指令查询。 验证 ssh 免密登录是否配置成功,第一次登录时需要输入 yes ”,然后输入账户密码。之后再登录就不需要了。
$ ssh zhangsanshi

指令尾部的 ubuntu 同样为本机的 hostname (安装 ubuntu 拟机时个人设置),输入该指令时请替换为你的 hostname 登录成功后,路径会自动变成 ~ ,输入 exit 退出登录。

以上是关于如何在Ubuntu下安装伪分布hadoop的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop在Ubuntu系统下安装Hadoop单机/伪分布式安装

ubuntu 下安装伪分布式 hadoop

Ubuntu下伪分布式安装Hadoop详细教程

Ubuntu下伪分布式安装Hadoop详细教程

Hadoop在Ubuntu系统下伪分布式安装Hadoop,Spark和Hive

如何在以伪分布式模式安装的Hadoop中运行Nutch