如何在Ubuntu下安装伪分布hadoop

Posted 2023-03-04 张人玉

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何在Ubuntu下安装伪分布hadoop相关的知识，希望对你有一定的参考价值。

首先要准备一些东西

1.虚拟机

2.Xshell

3.Xftp

4.Ubuntu的镜像文件

5.jdk的包（Linux版）

6.Hadoop的镜像文件（Hadoop的包）

7.eclipse（linux版）

首先下载虚拟机

进入虚拟机官网下载：

https://www.vmware.com/cn/products/workstation-pro.html

Xshell

进入官网下载

XSHELL - NetSarang Website

Xftp

进入官网下载

XFTP - NetSarang Website (xshell.com)

Ubuntu

进入官网下载
https://cn.ubuntu.com/download/desktop

jdk的包

进入官网

https://www.oracle.com/java/technologies/downloads/#java8-linux

Hadoop镜像文件

清华大学管网：

https://mirrors.tuna.tsinghua.edu.cn/apac he/hadoop/common/

eclipse（linux）

https://archive.eclipse.org/technology/epp/downloads/release/2020-12/R

以上网站大部分都需要花钱，也可以选择我的资源包

关注我的博客号

搜索：在Ubuntu上安装hadoop

下载资源包（ubuntu镜像文件需要自己下载其它的都有）

准备工作已经做好了

我们现在可以开始安装了

1.创建一个虚拟机

2.启动系统

进入之后

按

ctrl+alt可以将鼠标推出虚拟机的界面

会有一段时间黑屏，这是正常现象请耐心等待，第一次的过程比较缓慢

然后需要等待一会，程序自动完成之后，会重新启动

连接Xshell

说明：需要提前先安装好 Xshell 和 Xftp

输入之后，可能中间会中断一次，不要担心，按enter继续就可以了

将

jdk的包（Linux版）

Hadoop的镜像文件（Hadoop的包）

eclipse（linux版）

这几个包从winws转到虚拟机中

开始下一步操作

(1)安装jdk和hadoop

先解压文件

输入代码
jdk-8u301-linux-x64.tar.gz 是文件名，要改成自己的文件名
hadoop-2.10.1.tar.gz 是文件名，要改成自己的文件名
$ tar -zxvf jdk-8u301-linux-x64.tar.gz
$ tar -zxvf hadoop-2.10.1.tar.gz

移动至 /usr/local 路径下

移动jdk

$ sudo mv jdk1.8.0_301 /usr/local/jdk1.80

移动hadoop

$ sudo mv jdk1.8.0_301 /usr/local/jdk1.80

安装 vim 编辑器，不安装的话可以使用自带的 vi 编辑器（功能相对少）

$ sudo apt install vim

打开环境变量配置文件

$ sudo vim /etc/profile

在文件末尾插入以下定义

export JAVA_HOME=/usr/local/jdk1.8.0
export HADOOP_HOME=/usr/local/hadoop-2.10.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/Sbin

按Esc

然后输入

：wq

如果出现这种情况退出不了

先输入

:set noreadonly
在按Esc 在输入
:wq

更新环境变量

$ source /etc/profile

测试是否配置成功

测试Hadoop是否安装完成

$ hadoop version

测试Java是否安装完成
$ java -version

配置Hadoop

建立保存临时目录的路径

$ sudo mkdir -p /usr/data/hadoop/tmp

Hadoop 默认启动的时候使用的是系统下的 /temp 目录下,但是在每一次重启的时候系统都会将其自动清空 ,如果没有临时的储存目录有可能会在下一次启动 Hadoop 的时候出现问题。

为防止 Hadoop 运行时出现权限的问题，需要将 /usr/data 目录及其子目录的拥有者全部从 root 改为用户名。

$ sudo chown sillin:silin -R /usr/data

（这里以本机用户名 silin 为例。）进入 hadoop 安装文件下的/etc/hadoop/文件夹中编辑 hadoop-env.sh 脚本文件

将 $JAVA_HOME 改为 jdk 的实际安装路径

编辑 core-site.xml 配置文件

<configuration>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/usr/data/hadoop/tmp</value>
	</property>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://zhangjinlei:9000</value>
	</property>
</configuration>

（其中圈起来的 zhangsanshi-virtual-machine 为 hostname 。）编辑 hdfs-site.xml 的配置文件

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>1</value>
</configuration>

将 mapred-site.xml.template 更名为 mapred-site.xml 并编辑

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>

编辑 yarn-site.xml

<configuration>
	<!-- Site specific YARN configuration properties -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>zhangsanshi-virtual-machine</value>
	</property>
	<propert>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
</configuration>

) 格式化 HDFS

$ hdfs namenode -format

启动

$ start-dfs.sh
$ start-yarn.sh

检验

$ jps

四、安装 Java 开发环境解压 eclipse 文件

$ tar -zxvf eclipse-java-2021-09-R-linux-gtk-x86_64.tar.gz

安装

$ sudo mv eclipse/ /usr/local/

启动

先输入 

$ cd /usr/local/eclipse/

在输入

$ ./eclipse

HDFS Java API 所需添加的 Jar 包如下表所示：目录 Jar 包 /usr/local/Hadoop-2.10.1/share/hadoop/common hadoop-common-2.7.1.jar /haoop-nfs-2.7.1.jar /usr/local/ hadoop-2.10.1/share/hadoop/common/lib 所有 Jar 包 /usr/local/hadoop-2.10.1/share/hadoop/hdfs haoop-hdfs-2.7.1.jar /haoop-hdfs-nfs-2.7.1.jar /usr/local/hadoop-2.10.1/share/hadoop/hdfs/lib 所有 Jar 包

设置ssh免密登录

安装 ssh

$ sudo apt install openssh-server

添加 ssh.service 服务

$ systemctl enable ssh.service

启动 ssh 服务进程

$ service sshd start

生成密钥对，输入以下命令后连续敲击 3 次回车键

$ ssh-keygen -t rsa

~/.ssh/ 目录下生成了公钥和私钥 id_rsa id_rsa.pub 追加公钥至本机 authorized_keys

$ ssh-copy-id -i ~/.ssh/id_rsa.pub zhangsanshi

指令尾部的 ubuntu 为本机的 hostname （安装 ubuntu 虚拟机时个人设置），输入该指令时请替换为你的 hostname 。 hostname 可通过 $hostname 指令查询。验证 ssh 免密登录是否配置成功，第一次登录时需要输入 “ yes ”，然后输入账户密码。之后再登录就不需要了。

$ ssh zhangsanshi

指令尾部的 ubuntu 同样为本机的 hostname （安装 ubuntu 虚拟机时个人设置），输入该指令时请替换为你的 hostname 。登录成功后，路径会自动变成 ~ ，输入 exit 退出登录。

以上是关于如何在Ubuntu下安装伪分布hadoop的主要内容，如果未能解决你的问题，请参考以下文章