Hadoop学习笔记HDFSHDFS集群(分布式)安装

Posted 2021-08-17 500年

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hadoop学习笔记HDFSHDFS集群(分布式)安装相关的知识，希望对你有一定的参考价值。

安装Hadoop(Linux CentOS) HDFS集群(分布式)

1、hadoop集群配置

1.0、需要配置的文件列表：cd etc/hadoop

core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
workers

1.1、vi core-site.xml

<configuration>
	<property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
    </property>
	<property>
        <name>hadoop.data.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>
	<property>
        <name>hadoop.proxyuser.atguigu.hosts</name>
        <value>*</value>
    </property>
	<property>
        <name>hadoop.proxyuser.atguigu.groups</name>
        <value>*</value>
    </property>
</configuration>

1.2、vi hdfs-site.xml

<configuration>
	<property>
        <name>dfs.namenode.name.dir</name>
        <value>file://${hadoop.data.dir}/name</value>
        </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file://${hadoop.data.dir}/data</value>
    </property>
    <property>
        <name>dfs.namenode.checkpoint.dir</name>
        <value>file://${hadoop.data.dir}/namesecondary</value>
    </property>
	<property>
        <name>dfs.client.datanode-restart.timeout</name>
        <value>30</value>
    </property>
	<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:9868</value>
    </property>
</configuration>

1.3、vi mapred-site.xml

<configuration>
	<property>
		<name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>    
</configuration>

1.4、vi yarn-site.xml

<configuration>
	<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>
	<property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,hADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

1.5、vi workers

# 配置所有的从机
hadoop102
hadoop103
hadoop104

1.6、集群启动前-格式化

hdfs namenode -format

1.7、启动

start-dfs.sh
# 启动顺序：namenodes、datanodes、secondary namenodes

# 启动resourcemanager
start-yarn.sh

# 查看启动情况
jps

停止

stop-dfs.sh
stop-yarn.sh

2、hadoop集群扩展配置

2.1、配置历史服务器

建议与日志的聚集同节点
vi mapred-site.xml

<!-- 历史服务器端地址 -->
	<property>
		<name>mapreduce.jobhistory.address</name>
        <value>hadoop102:10020</value>
	</property>
	
	<!-- 历史服务器web端地址 -->
	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
        <value>hadoop102:19888</value>
	</property>

启动历史服务器

mapred --daemon start historyserver

2.2、配置日志的聚集

建议与历史服务器同节点
vi yarn-site.xml

    <!-- 开启日志聚集功能 -->
	<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
	<!-- 日志服务器 -->
	<property>
        <name>yarn.log.server.url</name>
        <value>http://hadoop102:19888/jobhistory/logs</value>
    </property>
	<!-- 日志保持一星期 -->
	<property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>

以上是关于Hadoop学习笔记HDFSHDFS集群(分布式)安装的主要内容，如果未能解决你的问题，请参考以下文章