如何编写映射的输出将作业直接减少到分布式缓存，以便将其传递给另一个作业

Question

我目前正在练习Map-reduce（Hadoop 2.2），并且需要您对其中一个概念的帮助。

我有一个用例，我想用两个工作来完成。我希望将job1的输出写入分布式缓存，并将其作为输入传递给第二个作业。

基本上我想避免将第一个作业的输出写入文件，从而导致开销。

用例输入：

歌曲文件 -

| s1 | song1 |经典| | s2 | song2 |爵士乐 | s2 | song3 |经典| 。

用户评级文件 -

| U1 | S1 | 7 | | U2 | S2 | 5 | | U3 | S2 | 9 | | U4 | S1 | 7 | | U5 | S5 | 5 | | U6 | S1 | 9 |

注意：这两个文件都包含非常大的数据。

查找每首古典歌曲的平均评分。

我提出的实际/预期解决方案是我将使用两个链式作业。 1.Job1：它将获得所有经典歌曲的ID并添加以分发缓存

2.Job2：第二个作业中的Mapper根据缓存中的值过滤古典歌曲的等级。 Reducer将计算每首歌曲的平均评分。

我在网上搜索，看看我们是否可以将作业的输出直接写入分布式缓存，但无法找到有用的信息。

我在stackoverflow上发现了类似的问题：

"How to directly send the output of a mapper-reducer to a another mapper-reducer without
 saving the output into the hdfs"

解决方法是使用'SequenceFileOutputFormat'。

但是在我的情况下，我希望在第二个作业中每个映射器都可以使用所有的歌曲ID。所以我认为上述解决方案在我的案例中不起作用。

我想要的替代方法是运行第一个作业，找到经典歌曲的ID并将输出（歌曲ID）写入文件并创建新作业并将歌曲ID输出文件添加到第二个作业的缓存。请指教。

非常感谢您的帮助。

Answer 1

另一答案

Answer 2

另一答案