大数据关键技术——MapReduce
Posted ItStar
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据关键技术——MapReduce相关的知识,希望对你有一定的参考价值。
传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理,并且数据处理方法是以处理器为中心,处理的大多是结构化数据。
随着互联网的发展,数据来源日渐丰富且数据类型多样,除了结构化数据,非结构化的数据大量浮现。随即面临的问题便是存储和分析挖掘的数据量变大,对数据展现的要求要高,并且很看重数据处理的高效性和可用性。
大环境的驱使下,大数据的基本处理流程应用而生,与传统数据处理流程相比,主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用MapReduce等方式进行并行处理。
大数据的并行处理利器——MapReduce
大数据可以通过MapReduce这一并行处理技术来提高数据的处理速度。MapReduce的设计初衷是通过大量廉价服务器实现大数据并行处理,对数据一致性要求不高,其突出优势是具有扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。
MapReduce将传统的查询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。作为一个简化的并行处理的编程模型,MapReduce还降低了开发并行应用的门槛。
MapReduce是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。
MapReduce的工作原理其实是先分后合的数据处理方式。Map即“分解”,把海量数据分割成了若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作以得到最终结果。如右图所示,如果采用MapReduce来统计不同几何形状的数量,它会先把任务分配到两个节点,由两个节点分别并行统计,然后再把它们的结果汇总,得到最终的计算结果。
MapReduce适合进行数据分析、日志分析、商业智能分析、客户营销、大规模索引等业务,并具有非常明显的效果。通过结合MapReduce技术进行实时分析,某家电公司的信用计算时间从33小时缩短到8秒,而MKI的基因分析时间从数天缩短到20分钟。
说到这里,再看一看MapReduce与传统的分布式并行计算环境MPI到底有何不同?MapReduce在其设计目的、使用方式以及对文件系统的支持等方面与MPI都有很大的差异,使其能够更加适应大数据环境下的处理需求。
除了以上提到的MapReduce技术,想要成为大数据行业的资深人员,以下这些都是必备知识:
Java SE、Linux、Hadoop集群、Storm实时流式计算,新一代计算引擎Flink Spark内存计算架构,最好还要有:项目架构(数据抓取、存储、计算处理、可视化)完整系统、阿里云电商项目实训。
以上是关于大数据关键技术——MapReduce的主要内容,如果未能解决你的问题,请参考以下文章