Pig local vs mapreduce 模型性能对比

Posted

技术标签:

【中文标题】Pig local vs mapreduce 模型性能对比【英文标题】:Pig local vs mapreduce mode performance comparision 【发布时间】:2014-05-12 20:48:49 【问题描述】:

我已经使用 Cloudera 管理器 CDH4 设置了一个 3 节点 Hadoop 集群。当在 mapreduce 模式下运行 Pig 作业时,对于相同的数据集,它所花费的时间是本地模式的两倍。这是预期的行为吗? 还有任何可用于 mapreduce 作业的性能调整选项的文档吗?

非常感谢您的帮助!

【问题讨论】:

【参考方案1】:

这可能是因为你使用的是玩具数据集,mapreduce 的开销大于并行化的好处

【讨论】:

【参考方案2】:

性能调优的良好开端是“Programming Pig”一书中的"Making Pig Fly" 章节。

【讨论】:

【参考方案3】:

另一个原因是当您在 -x 本地模式下运行时,Pig 不会像在 map reduce 模式下那样执行相同的 jar 编译。使用小数据集和复杂的 pig 脚本,实际的 jar 编译时间会变得很明显。

【讨论】:

以上是关于Pig local vs mapreduce 模型性能对比的主要内容,如果未能解决你的问题,请参考以下文章

Pig 不在 mapreduce 模式下工作

Pig 在本地模式与 mapreduce 模式下的性能

SQL-HIVE-PIG-Mapreduce

pig 为啥它运行多个mapreduce 进程?

《深入浅出pig系列之中的一个》pig-0.12.0-cdh5.1.2的安装与执行

PIG 脚本、Hive 查询和相应 MapReduce 代码的包装代码