大文件上的本地模式猪

Posted

技术标签:

【中文标题】大文件上的本地模式猪【英文标题】:Pig in local mode on a large file 【发布时间】:2015-05-28 16:16:13 【问题描述】:

我在一个 54 GB 的大文件上以本地模式运行 pig。我观察到它按顺序产生了很多地图任务。我期待的是,也许每个地图任务正在读取 64 MB 的行。因此,如果我想优化这一点并可能读取 1GB 等效行数,

a.) 有可能吗?(也许通过增加分割大小) b.) 怎么做? c.) 是否还有其他最佳方法。

谢谢

【问题讨论】:

【参考方案1】:

您可以通过设置来增加分割大小:

SET mapred.max.split.size  #bytes

【讨论】:

【参考方案2】:

默认块大小为 64MB。 试试这个来增加块大小:

打开 hdfs-site.xml 文件。该文件通常在Hadoop安装目录的conf/文件夹中。在hdfs-site.xml中设置如下属性:

-property- 
-name-dfs.block.size-name- 
-value-134217728-value- 
-description-Block size-description- 
-property-

【讨论】:

本地模式下的猪.. 所以没有 hdfs-site.xml

以上是关于大文件上的本地模式猪的主要内容,如果未能解决你的问题,请参考以下文章

本地模式下的猪与没有 hadoop.jar 的猪之间的区别

在本地模式下运行 pig

从 oozie 以本地模式运行 PIG

大数据-Hadoop 本地运行模式

emacs使用本地emacs server模式打开远程文件

大数据3.1hadoop本地运行