超越MapReduce的并行大数据处理

Posted cellphone7

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了超越MapReduce的并行大数据处理相关的知识,希望对你有一定的参考价值。

9.1:基于迭代处理平台的并行算法

 

 

不动点:

 

核心观点:

 

迭代例析:

1.PageRank(网络连接分析)

mapreduce中的实现:

存在的问题:

2.传递闭包

存在的问题:

3.K-means算法

存在的问题:

 

解决方法:缓存迭代

 

 

Reducer输入缓存:

 

Reducer的输出缓存:

 

Mapper的输入缓存:

 

体系结构:

 

9.2基于图处理平台的并行算法

 

 

pregel和mapreduce的不同之处:

 

系统的安装:

 

 

例子:计算子图同构

方法概述:

 

1.查询分解:

2.搜索:

3.join:

 

以上是关于超越MapReduce的并行大数据处理的主要内容,如果未能解决你的问题,请参考以下文章

机器学习专家系列精品课程零基础到精通

Spark:超越Hadoop MapReduce

Spark:超越Hadoop MapReduce

Spark:超越Hadoop MapReduce

大数据之Hadoop(MapReduce):切片与MapTask并行度决定机制

大数据技术基础笔记7 MapReduce