Ubuntu16.04 install Hadoop 伪分布式

Posted 2020-10-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Ubuntu16.04 install Hadoop 伪分布式相关的知识，希望对你有一定的参考价值。

1.安装SSH server、配置SSH无密码登陆
Ubuntu默认安装了SSH client，还需要安装SSH server。
sudo apt-get install openssh-server

设置SSH无密码登陆本机
ssh localhost

会有如下提示(SSH首次登陆提示)，输入yes。
SSH首次登陆提示
然后按提示输入密码hadoop，这样就登陆到本机了。但这样的登陆是需要密码的，需要配置成无密码登陆。
先退出刚才的ssh，然后生成ssh证书：

exit                           # 退出 ssh localhost
cd ~/.ssh                      # 如果没有该目录，先执行一次ssh localhost
ssh-keygen -t rsa              # 一直按回车就可以
cp id_rsa.pub authorized_keys

此时再用ssh localhost命令，就可以直接登陆了

2.Hadoop的安装
下载hadoop安装包   binary
解压、移动到你想要放置的文件夹

　　　　tar -zvxf hadoop-2.7.3.tar.gz

　　　　mv ./hadoop-2.7.3.tar.gz   /opt/hadoop

授予执行权限
sudo chmod -R 755 /opt/hadoop
sudo chown -R xxx:hadoop /opt/hadoop //否则ssh会拒绝访问

修改/etc/profile
#set hadoop environment
export HADOOP_HOME=/opt/hadoop
export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:$PATH

测试是否配置成功
hadoop version

3.伪分布式配置   cd /opt/hadoop
hdfs配置:
vim etc/hadoop/core-site.xml
<configuration>
        <property>
             <name>hadoop.tmp.dir</name>
             <value>file:/opt/hadoop/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://localhost:9000</value>
        </property>
</configuration>

vim etc/hadoop/hdfs-site.xml
<configuration>
        <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/opt/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/opt/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

mapreduce配置:
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
vim etc/hadoop/mapred-site.xml
<configuration>
        <property>
             <name>mapreduce.framework.name</name>
             <value>yarn</value>
        </property>
</configuration>

vim etc/hadoop/yarn-site.xml
<configuration>
        <property>
             <name>yarn.nodemanager.aux-services</name>
             <value>mapreduce_shuffle</value>
            </property>
</configuration>

开启hdfs：./sbin/start-dfs.sh
访问http://localhost:50070 查看节点信息。
关闭hdfs: ./sbin/stop-dfs.sh

开启历史服务器 ./sbin/mr-jobhistory-daemon.sh start historyserver

不启用 YARN 时，是 “mapred.LocalJobRunner” 在跑任务，启用 YARN 之后，是 “mapred.YARNRunner” 在跑任务。启动 YARN 有个好处是可以通过 Web 界面查看任务的运行情况：http://localhost:8088/cluster 。

以上是关于Ubuntu16.04 install Hadoop 伪分布式的主要内容，如果未能解决你的问题，请参考以下文章