Pig Cassandra 使用 oozie 处理非常缓慢(心跳)

Posted

技术标签:

【中文标题】Pig Cassandra 使用 oozie 处理非常缓慢(心跳)【英文标题】:Pig Cassandra process very slow (Heart beat) with oozie 【发布时间】:2013-11-20 08:32:36 【问题描述】:

我有一个猪脚本,它将从 cassandra 获取所有数据,进行少量转换并存储到 hdfs。当我在 pig 的 grunt 控制台上执行时,由于 cassandra 中有很多数据,需要将近 30 分钟。

但是当我使用 oozie 工作流程执行相同的操作时,它会执行但需要很长时间,将近一个半小时。当我检查 hadoop 日志时,这就是它所说的。

2013-11-19 01:20:00,871 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 更多信息在:master:50030/jobdetails.jsp?jobid=job_201311190052_0002 心跳 .. .. 心跳 心跳 2013-11-19 02:09:59,172 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 50% 完成 2013-11-19 02:10:17,289 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 100% 完成

几乎它会检查心跳 50 分钟,然后再次恢复该过程。

我在 9000 端口上进行了从源到目标的 telnet。我能够连接。我什至检查了 /etc/hosts 文件中两台机器上的 IP 配置,顺便说一下,这看起来不错。

我们仍然不明白为什么会这样?这是什么?以及如何克服这个问题,以便更快地完成处理。任何人都可以在这方面帮助我们吗?非常感谢任何帮助。

【问题讨论】:

即使我也面临类似的问题。有人有解决办法吗? 【参考方案1】:

这是解决问题的两件事。

1) 使用where子句从cassandra获取数据,而不是获取所有数据。

2) 为机器添加更多风扇,因为这也是由于 HDD 冷却不足造成的。

【讨论】:

以上是关于Pig Cassandra 使用 oozie 处理非常缓慢(心跳)的主要内容,如果未能解决你的问题,请参考以下文章

在 Oozie 或 pig 运行时重命名文件夹

使用 Pig、Hive 和 unix 的 Oozie 工作流程

如何在 oozie 中将 pig 选项作为参数传递?

从 oozie 以本地模式运行 PIG

从 oozie 提交猪作业

Pig : 容器在 cdh 5 中使用 oozie 运行超出物理内存限制