Hadoop中 常用端口说明和相关配置文件
Posted 广阔天地大有可为
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop中 常用端口说明和相关配置文件相关的知识,希望对你有一定的参考价值。
目录
1. Hadoop中常用端口说明
端口名称 | Hadoop2.x | Hadoop3.x | 端口配置 |
NameNode服务所在服务器的IP和端口号 | 8020 / 9000 | 8020 / 9000/9820 | core-site.xml <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:8020</value> </property> |
HDFS Web UI 的IP和端口号 | 50070 | 9870 | hdfs-site.xml <property> <name>dfs.namenode.http-address</name> <value>hadoop01:9870</value> </property> |
Yarn Web UI 的IP和端口号 | 8088 | 8088 | yarn-site.xml <property> <name>yarn.resourcemanager.webapp.address</name> <value>RM_IP:8088</value> </property> tips:RM_IP = $yarn.resourcemanager.hostname |
数据传输的datanode服务器地址和端口 | 9866 | 9866 | hdfs-site.xml <property> |
2. Hadoop中常用配置文件说明
2.1 配置文件分类
Hadoop中配置文件分两类: 默认配置文件 、自定义配置文件
tips: 用户想修改默认值配置时,只需要在自定义文件中修改相应配置项即可(不指定时,使用默认配置)
2.2 默认配置文件
方式1: 从官网查看默认配置项
官网连接:传送门
方式2: 从 hadoop安装包内 查看
默认配置文件名称 | 默认配置文件所在的位置 |
core-default.xml | $HADOOP_HOME/share/hadoop/common/hadoop-common-3.2.3.jar/core-default.xml |
hdfs-default.xml | $HADOOP_HOME/share/hadoop/hdfs/hadoop-hdfs-3.2.3.jar/hdfs-default.xml |
yarn-default.xml | $HADOOP_HOME/share/hadoop/yarn/hadoop-yarn-common-3.2.3.jar/yarn-default.xml |
mapred-default.xml | $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-3.2.3.jar/mapred-default.xml |
2.3 自定义配置文件
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在 $HADOOP_HOME/etc/hadoop 这个路径上,用户可以根据项目需求重新进行修改配置
core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 NameNode服务 所在服务器的IP和端口号
用来访问HDFS的 链接
-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://worker:8020</value>
</property>
<!-- 指定 hadoop 数据的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/software/hadoop-3.2.3/data</value>
</property>
<!-- 配置 HDFS 网页登录使用的静态用户为 worker01 -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>worker01</value>
</property>
</configuration>
hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 namenode web ui IP和端口-->
<property>
<name>dfs.namenode.http-address</name>
<value>worker01:9870</value>
</property>
<!-- 指定 secondary namenode web ui IP和端口-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>worker02:9868</value>
</property>
<!-- 指定 默认副本数(不指定时,默认为3)
tips: 创建文件时,可以指定文件的副本个数,如果没有指定,则使用这个默认值
-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!-- 客户端连接datanode时是否使用datanode主机名(默认值:false)-->
<property>
<name>dfs.client.use.datanode.hostname</name>
<value>true</value>
</property>
<!-- 数据传输的datanode服务器地址和端口 -->
<property>
<name>dfs.datanode.address</name>
<value>worker01:9866</value>
</property>
<!-- datanode http服务器地址和端口 -->
<property>
<name>dfs.datanode.http.address</name>
<value>worker01:9864</value>
</property>
</configuration>
yarn-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 MR 走 shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定 ResourceManager服务 的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>worker01</value>
</property>
<!-- 环境变量的继承 -->
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>
JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
</value>
</property>
</configuration>
mapred-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
hadoop三个配置文件的参数含义说明
hadoop常用端口配置
1. HDFS端口
参数 | 描述 | 默认 | 配置文件 | 例子值 |
fs.default.name | namenode RPC交互端口 | 8020 | core-site.xml | hdfs://master:8020/ |
dfs.http.address | NameNode web管理端口 | 50070 | hdfs- site.xml | 0.0.0.0:50070 |
dfs.datanode.address | datanode 控制端口 | 50010 | hdfs -site.xml | 0.0.0.0:50010 |
dfs.datanode.ipc.address | datanode的RPC服务器地址和端口 | 50020 | hdfs-site.xml | 0.0.0.0:50020 |
dfs.datanode.http.address | datanode的HTTP服务器和端口 | 50075 | hdfs-site.xml | 0.0.0.0:50075 |
2. MR端口
参数 | 描述 | 默认 | 配置文件 | 例子值 |
mapred.job.tracker | job-tracker交互端口 | 8021 | mapred-site.xml | hdfs://master:8021/ |
job | tracker的web管理端口 | 50030 | mapred-site.xml | 0.0.0.0:50030 |
mapred.task.tracker.http.address | task-tracker的HTTP端口 | 50060 | mapred-site.xml | 0.0.0.0:50060 |
3. 其他端口
参数 | 描述 | 默认 | 配置文件 | 例子值 |
dfs.secondary.http.address | secondary NameNode web管理端口 | 50090 | hdfs-site.xml | 0.0.0.0:50090 |
|
|
|
|
|
|
|
|
|
|
缺省配置参考文件说明
1. core-default.xml
序号 | 参数名 | 参数值 | 参数说明 |
1 | hadoop.tmp.dir | /tmp/hadoop-$user.name | 临时目录设定 |
2 | hadoop.native.lib | true | 使用本地hadoop库标识。 |
3 | hadoop.http.filter.initializers |
| http服务器过滤链设置 |
4 | hadoop.security.group.mapping | org.apache.hadoop.security.ShellBasedUnixGroupsMapping | 组内用户的列表的类设定 |
5 | hadoop.security.authorization | false | 服务端认证开启 |
6 | hadoop.security.authentication | simple | 无认证或认证设置 |
7 | hadoop.security.token.service.use_ip | true | 是否开启使用IP地址作为连接的开关 |
8 | hadoop.logfile.size | 10000000 | 日志文件最大为10M |
9 | hadoop.logfile.count | 10 | 日志文件数量为10个 |
10 | io.file.buffer.size | 4096 | 流文件的缓冲区为4K |
11 | io.bytes.per.checksum | 512 | 校验位数为512字节 |
12 | io.skip.checksum.errors | false | 校验出错后是抛出异常还是略过标识。True则略过。 |
13 | io.compression.codecs | org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.SnappyCodec | 压缩和解压的方式设置 |
14 | io.serializations | org.apache.hadoop.io.serializer.WritableSerialization | 序例化和反序列化的类设定 |
15 | fs.default.name | file:/// | 缺省的文件URI标识设定。 |
16 | fs.trash.interval | 0 | 文件废弃标识设定,0为禁止此功能 |
17 | fs.file.impl | org.apache.hadoop.fs.LocalFileSystem | 本地文件操作类设置 |
18 | fs.hdfs.impl | org.apache.hadoop.hdfs.DistributedFileSystem | HDFS文件操作类设置 |
19 | fs.s3.impl | org.apache.hadoop.fs.s3.S3FileSystem | S3文件操作类设置 |
20 | fs.s3n.impl | org.apache.hadoop.fs.s3native.NativeS3FileSystem | S3文件本地操作类设置 |
21 | fs.kfs.impl | org.apache.hadoop.fs.kfs.KosmosFileSystem | KFS文件操作类设置. |
22 | fs.hftp.impl | org.apache.hadoop.hdfs.HftpFileSystem | HTTP方式操作文件设置 |
23 | fs.hsftp.impl | org.apache.hadoop.hdfs.HsftpFileSystem | HTTPS方式操作文件设置 |
24 | fs.webhdfs.impl | org.apache.hadoop.hdfs.web.WebHdfsFileSystem | WEB方式操作文件类设置 |
25 | fs.ftp.impl | org.apache.hadoop.fs.ftp.FTPFileSystem | FTP文件操作类设置 |
26 | fs.ramfs.impl | org.apache.hadoop.fs.InMemoryFileSystem | 内存文件操作类设置 |
27 | fs.har.impl | org.apache.hadoop.fs.HarFileSystem | 压缩文件操作类设置. |
28 | fs.har.impl.disable.cache | true | 是否缓存har文件的标识设定 |
29 | fs.checkpoint.dir | $hadoop.tmp.dir/dfs/namesecondary | 备份名称节点的存放目前录设置 |
30 | fs.checkpoint.edits.dir | $fs.checkpoint.dir | 备份名称节点日志文件的存放目前录设置 |
31 | fs.checkpoint.period | 3600 | 动态检查的间隔时间设置 |
32 | fs.checkpoint.size | 67108864 | 日志文件大小为64M |
33 | fs.s3.block.size | 67108864 | 写S3文件系统的块的大小为64M |
34 | fs.s3.buffer.dir | $hadoop.tmp.dir/s3 | S3文件数据的本地存放目录 |
35 | fs.s3.maxRetries | 4 | S3文件数据的偿试读写次数 |
36 | fs.s3.sleepTimeSeconds | 10 | S3文件偿试的间隔 |
37 | local.cache.size | 10737418240 | 缓存大小设置为10GB |
38 | io.seqfile.compress.blocksize | 1000000 | 压缩流式文件中的最小块数为100万 |
39 | io.seqfile.lazydecompress | true | 块是否需要压缩标识设定 |
40 | io.seqfile.sorter.recordlimit | 1000000 | 内存中排序记录块类最小为100万 |
41 | io.mapfile.bloom.size | 1048576 | BloomMapFiler过滤量为1M |
42 | io.mapfile.bloom.error.rate | 0.005 |
|
43 | hadoop.util.hash.type | murmur | 缺少hash方法为murmur |
44 | ipc.client.idlethreshold | 4000 | 连接数据最小阀值为4000 |
45 | ipc.client.kill.max | 10 | 一个客户端连接数最大值为10 |
46 | ipc.client.connection.maxidletime | 10000 | 断开与服务器连接的时间最大为10秒 |
47 | ipc.client.connect.max.retries | 10 | 建立与服务器连接的重试次数为10次< 以上是关于Hadoop中 常用端口说明和相关配置文件的主要内容,如果未能解决你的问题,请参考以下文章 |