Pig 脚本最短执行时间

Posted

技术标签:

【中文标题】Pig 脚本最短执行时间【英文标题】:Pig script minimum execution time 【发布时间】:2013-11-11 20:22:15 【问题描述】:

我目前正在学习 Pig,并且正在 Hortonworks Sandbox 中执行我的脚本。从一开始就困扰我的是,Pig 脚本的最短执行时间似乎至少为 30-40 秒。那是因为我使用的是 Hortonworks Sandbox 还是 Pig 脚本很正常?有没有办法减少执行时间,因为这真的减慢了我的学习进度?如果这个执行时间是正常的,你能解释一下这是怎么回事吗?为什么会这样?

PS

我为 Hortonworks 虚拟机分配了 2GB RAM。顺便提一下,我目前只在小型数据集上执行简单的脚本。

【问题讨论】:

【参考方案1】:

如果你在本地模式下执行 pig (pig -x local),那么它会运行得更快,但它不会执行 map-reduce 并且不会访问 hdfs - 不过这对学习很有好处!

【讨论】:

【参考方案2】:

是的,30-40 秒对于 Pig 来说是绝对正常的,因为它在编译作业、启动 JVM 等方面有很大的开销。 如另一个答案所述 - 您可以尝试在本地模式下运行。输入仅包含几行数据的简单工作通常需要大约 15 秒。顺便说一句,我的 Cloudera VM 分配有 4G 的 RAM。

【讨论】:

以上是关于Pig 脚本最短执行时间的主要内容,如果未能解决你的问题,请参考以下文章

执行远程 Apache Pig 脚本时如何查看终端日志

在 pig 脚本中执行 shell 命令时出错

在java中运行pig而不嵌入pig脚本

Pig 无法处理大文件

从 Java 应用程序中执行 Pig

如何在hadoop pig中执行-fs