Yarn中的Map和Reduce的优化

Posted 2020-11-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Yarn中的Map和Reduce的优化相关的知识，希望对你有一定的参考价值。

通过Hive执行的批次任务处理失败，Spark中报的错误日志如下：

[plain] view plain copy
ERROR : Failed to monitor Job[ 3] with exception ‘java.lang.IllegalStateException(RPC channel is closed.)‘
java.lang.IllegalStateException: RPC channel is closed.
at com.google.common.base.Preconditions.checkState(Preconditions.java:145)
at org.apache.hive.spark.client.rpc.Rpc.call(Rpc.java:277)
at org.apache.hive.spark.client.SparkClientImpl$ClientProtocol.run(SparkClientImpl.java:584)
at org.apache.hive.spark.client.SparkClientImpl.run(SparkClientImpl.java:151)
at org.apache.hadoop.hive.ql.exec.spark.status.impl.RemoteSparkJobStatus.getSparkJobInfo(RemoteSparkJobStatus.java:147)
通过Yarn的ResourceManager可以看到错误日志如下：

[plain] view plain copy
Diagnostics: Container [pid=31880,containerID=container_1528360247633_0013_01_000001] is running beyond physical memory limits.
Current usage: 1.0 GB of 1 GB physical memory used; 2.8 GB of 2.1 GB virtual memory used. Killing container.
其中提示“1.0 GB of 1 GB physical memory used; 2.8 GB of 2.1 GB virtual memory used”，说明是由于内存不足导致了问题的发生，因而需要针对Yarn的容器的内存做优化。

1.调整每个容器节点的最大可用内存

这个根据当前所使用服务器的实际情况决定，另外还需要考虑给操作系统预留可使用的内存，如当前的服务器的内存为16G，可以配置为12G，其余4G留给操作系统：

[html] view plain copy
<name>yarn.nodemanager.resource.memory-mb</name>
<value>12000</value>
注：配置在yarn-site.xml中

2.调整单个容器可申请的最小内存

调整参数为yarn.scheduler.minimum-allocation-mb，该值和第1点谈到的单个容器的最大可存，可用于测算单台服务器可运行的最多的容器数，现将其值调为2G：

[html] view plain copy
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>2048</value>
注：配置在yarn-site.xml中

3.提升Map和Reduce可使用的内存

在当前示例中，给每个容器设置了2G的内存（通过参数yarn.scheduler.minimum-allocation-mb=2048），因此我们给Map任务容器分配了4G的内存，给Reduce任务容器分配了8G的内存：

[html] view plain copy
<name>mapreduce.map.memory.mb</name>
<value>4096</value>
<name>mapreduce.reduce.memory.mb</name>
<value>8192</value>
注：配置在mapred-site.xml中
4.优化Map和Reduce任务的JVM内存

每个Container都会运行Map和Reduce任务运行，因而JVM堆大小应设置为低于上面定义的Map和Reduce内存，以便它们位于由YARN分配的Container内存的范围内。

[html] view plain copy
<name>mapreduce.map.java.opts</name>
<value>-Xmx3072m</value>
<name>mapreduce.reduce.java.opts</name>
<value>-Xmx6144m</value>
注：配置在mapred-site.xml中

5、优化虚拟内存的占比

每个Map和Reduce任务的虚拟内存（物理+分页内存）上限由每个允许YARN容器的虚拟内存比决定。这由以下配置设置，默认值为2.1：
[html] view plain copy
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>2.1</value>
注：配置在yarn-site.xml中
如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。每天下午三点开直播分享基础知识，晚上20:00都会开直播给大家分享大数据项目实战。

以上是关于Yarn中的Map和Reduce的优化的主要内容，如果未能解决你的问题，请参考以下文章

hive优化之——控制hive任务中的map数和reduce数

python map filter reduce的优化使用

Hadoop优化

hadoop 调优措施调优参数

入门Hadoop---Mapreduce，Yarn是什么？

Hadoop企业优化