Hadoop中 常用端口说明和相关配置文件

Posted 广阔天地大有可为

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop中 常用端口说明和相关配置文件相关的知识,希望对你有一定的参考价值。

目录

1. Hadoop中常用端口说明

2. Hadoop中常用配置文件说明

2.1 配置文件分类

2.2 默认配置文件

2.3 自定义配置文件

core-site.xml

hdfs-site.xml

yarn-site.xml

mapred-site.xml


1. Hadoop中常用端口说明

端口名称

Hadoop2.x

Hadoop3.x

端口配置

NameNode服务所在服务器的IP和端口号

8020 / 9000        

8020 / 9000/9820

core-site.xml

<property>

       <name>fs.defaultFS</name>

       <value>hdfs://hadoop01:8020</value>

</property>

HDFS Web UI 的IP和端口号

50070

9870

hdfs-site.xml

<property>

      <name>dfs.namenode.http-address</name>

      <value>hadoop01:9870</value>

</property>

Yarn Web UI 的IP和端口号

8088

8088

yarn-site.xml

<property>

        <name>yarn.resourcemanager.webapp.address</name>

        <value>RM_IP:8088</value>

</property>

tips:RM_IP = $yarn.resourcemanager.hostname

数据传输的datanode服务器地址和端口98669866

hdfs-site.xml

<property>
      <name>dfs.datanode.address</name>
      <value>0.0.0.0:9866</value>
</property>

​​​​​​

2. Hadoop中常用配置文件说明

2.1 配置文件分类

Hadoop中配置文件分两类:  默认配置文件自定义配置文件

tips: 用户想修改默认值配置时,只需要在自定义文件中修改相应配置项即可(不指定时,使用默认配置)


2.2 默认配置文件

方式1: 从官网查看默认配置项

官网连接:传送门

方式2: 从 hadoop安装包内 查看

默认配置文件名称默认配置文件所在的位置

core-default.xml

$HADOOP_HOME/share/hadoop/common/hadoop-common-3.2.3.jar/core-default.xml

hdfs-default.xml

$HADOOP_HOME/share/hadoop/hdfs/hadoop-hdfs-3.2.3.jar/hdfs-default.xml

yarn-default.xml

$HADOOP_HOME/share/hadoop/yarn/hadoop-yarn-common-3.2.3.jar/yarn-default.xml

mapred-default.xml

$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-3.2.3.jar/mapred-default.xml

2.3 自定义配置文件

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在 $HADOOP_HOME/etc/hadoop 这个路径上,用户可以根据项目需求重新进行修改配置

core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- 指定 NameNode服务 所在服务器的IP和端口号
         用来访问HDFS的 链接
    -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://worker:8020</value>
    </property>

    <!-- 指定 hadoop 数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/software/hadoop-3.2.3/data</value>
    </property>
    
    <!-- 配置 HDFS 网页登录使用的静态用户为 worker01 -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>worker01</value>
    </property>
</configuration>

hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- 指定 namenode web ui IP和端口-->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>worker01:9870</value>
    </property>

    <!-- 指定 secondary namenode web ui IP和端口-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>worker02:9868</value>
    </property>

    <!-- 指定 默认副本数(不指定时,默认为3)
         tips: 创建文件时,可以指定文件的副本个数,如果没有指定,则使用这个默认值
    -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

    <!-- 客户端连接datanode时是否使用datanode主机名(默认值:false)-->
    <property>
        <name>dfs.client.use.datanode.hostname</name>
        <value>true</value>
    </property>

    <!-- 数据传输的datanode服务器地址和端口 -->
    <property>
        <name>dfs.datanode.address</name>
        <value>worker01:9866</value>
    </property>

    <!-- datanode http服务器地址和端口 -->
    <property>
        <name>dfs.datanode.http.address</name>
        <value>worker01:9864</value>
    </property>

</configuration>

yarn-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- 指定 MR 走 shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定 ResourceManager服务 的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>worker01</value>
    </property>

    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>
            JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
        </value>
    </property>

</configuration>

mapred-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!-- 指定 MapReduce 程序运行在 Yarn 上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    
</configuration>

hadoop三个配置文件的参数含义说明

hadoop常用端口配置

1. HDFS端口

参数

描述

默认

配置文件

例子值

fs.default.name

namenode RPC交互端口

8020

core-site.xml

hdfs://master:8020/

dfs.http.address 

NameNode web管理端口

50070

hdfs- site.xml

0.0.0.0:50070

dfs.datanode.address

datanode 控制端口

50010 

hdfs -site.xml 

0.0.0.0:50010

dfs.datanode.ipc.address

datanodeRPC服务器地址和端口

50020

hdfs-site.xml

0.0.0.0:50020

dfs.datanode.http.address

datanodeHTTP服务器和端口

50075

hdfs-site.xml 

0.0.0.0:50075


2. MR端口

参数

描述

默认

配置文件

例子值

mapred.job.tracker

job-tracker交互端口 

8021

mapred-site.xml

hdfs://master:8021/

job

trackerweb管理端口

50030

mapred-site.xml

0.0.0.0:50030

mapred.task.tracker.http.address

task-trackerHTTP端口

50060

mapred-site.xml

0.0.0.0:50060


3. 其他端口

参数

描述

默认

配置文件

例子值

dfs.secondary.http.address

secondary NameNode web管理端口

50090

hdfs-site.xml

0.0.0.0:50090












缺省配置参考文件说明

1. core-default.xml

序号

参数名

参数值

参数说明

1

hadoop.tmp.dir                      

/tmp/hadoop-$user.name                        

临时目录设定

2

hadoop.native.lib                  

true                                                 

使用本地hadoop库标识。

3

hadoop.http.filter.initializers    


http服务器过滤链设置                         

4

hadoop.security.group.mapping   

org.apache.hadoop.security.ShellBasedUnixGroupsMapping

组内用户的列表的类设定

5

hadoop.security.authorization      

false                                                

服务端认证开启

6

hadoop.security.authentication     

simple                                                

无认证或认证设置

7

hadoop.security.token.service.use_ip

true                                                 

是否开启使用IP地址作为连接的开关

8

hadoop.logfile.size                

10000000                                             

日志文件最大为10M

9

hadoop.logfile.count

10                                                    

日志文件数量为10

10

io.file.buffer.size

4096

流文件的缓冲区为4K

11

io.bytes.per.checksum

512 

校验位数为512字节

12

io.skip.checksum.errors

false

校验出错后是抛出异常还是略过标识。True则略过。

13

io.compression.codecs

org.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.SnappyCodec

压缩和解压的方式设置

14

io.serializations

org.apache.hadoop.io.serializer.WritableSerialization

序例化和反序列化的类设定

15

fs.default.name

file:///                                            

缺省的文件URI标识设定。

16

fs.trash.interval

0                                                   

文件废弃标识设定,0为禁止此功能

17

fs.file.impl

org.apache.hadoop.fs.LocalFileSystem       

本地文件操作类设置

18

fs.hdfs.impl

org.apache.hadoop.hdfs.DistributedFileSystem        

HDFS文件操作类设置

19

fs.s3.impl

org.apache.hadoop.fs.s3.S3FileSystem       

S3文件操作类设置

20

fs.s3n.impl             

org.apache.hadoop.fs.s3native.NativeS3FileSystem

S3文件本地操作类设置

21

fs.kfs.impl             

org.apache.hadoop.fs.kfs.KosmosFileSystem

KFS文件操作类设置

22

fs.hftp.impl            

org.apache.hadoop.hdfs.HftpFileSystem

HTTP方式操作文件设置

23

fs.hsftp.impl           

org.apache.hadoop.hdfs.HsftpFileSystem

HTTPS方式操作文件设置

24

fs.webhdfs.impl         

org.apache.hadoop.hdfs.web.WebHdfsFileSystem

WEB方式操作文件类设置

25

fs.ftp.impl             

org.apache.hadoop.fs.ftp.FTPFileSystem

FTP文件操作类设置

26

fs.ramfs.impl           

org.apache.hadoop.fs.InMemoryFileSystem

内存文件操作类设置

27

fs.har.impl             

org.apache.hadoop.fs.HarFileSystem

压缩文件操作类设置.

28

fs.har.impl.disable.cache

true

是否缓存har文件的标识设定

29

fs.checkpoint.dir       

$hadoop.tmp.dir/dfs/namesecondary

备份名称节点的存放目前录设置

30

fs.checkpoint.edits.dir     

$fs.checkpoint.dir

备份名称节点日志文件的存放目前录设置

31

fs.checkpoint.period        

3600

动态检查的间隔时间设置

32

fs.checkpoint.size          

67108864

日志文件大小为64M

33

fs.s3.block.size            

67108864

S3文件系统的块的大小为64M

34

fs.s3.buffer.dir            

$hadoop.tmp.dir/s3

S3文件数据的本地存放目录

35

fs.s3.maxRetries            

4

S3文件数据的偿试读写次数

36

fs.s3.sleepTimeSeconds      

10

S3文件偿试的间隔

37

local.cache.size            

10737418240

缓存大小设置为10GB

38

io.seqfile.compress.blocksize

1000000

压缩流式文件中的最小块数为100

39

io.seqfile.lazydecompress   

true

块是否需要压缩标识设定

40

io.seqfile.sorter.recordlimit

1000000

内存中排序记录块类最小为100

41

io.mapfile.bloom.size

1048576

BloomMapFiler过滤量为1M

42

io.mapfile.bloom.error.rate

0.005


43

hadoop.util.hash.type

murmur

缺少hash方法为murmur

44

ipc.client.idlethreshold

4000

连接数据最小阀值为4000 

45

ipc.client.kill.max

10

一个客户端连接数最大值为10

46

ipc.client.connection.maxidletime

10000

断开与服务器连接的时间最大为10

47

ipc.client.connect.max.retries

10

建立与服务器连接的重试次数为10次<

以上是关于Hadoop中 常用端口说明和相关配置文件的主要内容,如果未能解决你的问题,请参考以下文章

hadoop三个配置文件的参数含义说明

Hadoop常用端口和定义方法

常用的hadoop和yarn的端口总结

hadoop常用的端口配置

Hadoop 2.x常用端口及查看方法

Hadoop 2.x常用端口及查看方法

(c)2006-2024 SYSTEM All Rights Reserved IT常识