关系型资料库与Hadoop的本质区别在啥地方

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关系型资料库与Hadoop的本质区别在啥地方相关的知识,希望对你有一定的参考价值。

参考技术A

关系型资料库与Hadoop的本质区别在什么地方

两者的思路是一样,都是分散式并行处理。本质肯定一样,不同的是应用场景不一样:
1、hadoop是个轻量级的产品,又是开源的,不像dpf那么复杂,还要购买商业软体,搭个DPF环境需要费挺大力气的。
2、hadoop能处理半结构化,非结构化资料。
但hadoop要写map reduce函式,这个比起SQL来,方便灵活性差太多了。。。
在处理结构化资料方面,个人觉得MPP的资料库效能其实不会比hadoop差,只是一提起MPP大家就会想到要伺服器,外部储存,光纤网路,还要做很好的规划,觉得成本很高,所以都去追捧hadoop去了 :)
参考::itpub./thread-1566914-1-1.

这完全是两个东西啊!一个是资料库,一个是分散式系统基础架构,两个没有可比性吧!
我猜你想问的应该是hadoop的hbase这个nosql与关系型资料库的区别吧!
:zhihu./question/20059632

一般来说,关系型资料库都拿来做高效响应即时查询。但在大资料离线分析上比较弱。而hadoop很适合拿来做大资料离线分析。

面试题 关系型资料库和非关系型资料库的区别

索引实际上是一组指向表中资料的指标,索引的排列顺序其实就是这组指标的顺序.聚集索引:表的物理储存顺序与指标(即逻辑)顺序相同非聚集索引:物理与逻辑顺序不同因为一个表只能有一个物理顺序,所以,聚集索引的个数最多只能是1.其中唯一索引是给所做的索引增加了唯一性的约束,新增,修改索引列中资料时,不允许出现重复值.它可以是聚集索引,也可以是非聚集的。主键不允许有NULL,唯一索引可以。但是唯一索引只允许一个NULL。主键索引是把主键列定义为索引,主键具有唯一性,所以主键索引是唯一索引的一种特殊形式

关系型和非关系型资料库的区别

非关系型资料库的实质:非关系型资料库产品是传统关系型资料库的功能 *** 版本,通过减少用不到或很少用的功能,来大幅度提高产品效能。

    关系式资料结构把一些复杂的资料结构归结为简单的 二元关系(即二维表格形式)

    非关系型资料库通常分为层次式资料库、网路式资料库。按照 网状资料结构 建立的资料库系统称为网状资料库系统。用数学方法可将网状资料结构转化为层次资料结构。

    层次结构模型实质上是一种有根结点的定向有序树(在数学中"树"被定义为一个无回的连通图)。

当前主流的关系型资料库有Oracle、DB2、Microsoft SQL Server、Microsoft Aess、mysql等。
非关系型资料库有 NoSql、Cloudant。
nosql和关系型资料库比较?
优点:
1)成本:nosql资料库简单易部署,基本都是开源软体,不需要像使用oracle那样花费大量成本购买使用,相比关系型资料库价格便宜。
2)查询速度:nosql资料库将资料储存于快取之中,关系型资料库将资料储存在硬碟中,自然查询速度远不及nosql资料库。
3)储存资料的格式:nosql的储存格式是key,value形式、文件形式、图片形式等等,所以可以储存基础型别以及物件或者是集合等各种格式,而资料库则只支援基础型别。
4)扩充套件性:关系型资料库有类似join这样的多表查询机制的限制导致扩充套件很艰难。
缺点:
1)维护的工具和资料有限,因为nosql是属于新的技术,不能和关系型资料库10几年的技术同日而语。
2)不提供对sql的支援,如果不支援sql这样的工业标准,将产生一定使用者的学习和使用成本。
3)不提供关系型资料库对事物的处理。

hbase和关系型资料库的区别

Mongodb用于储存非结构化资料,尤其擅长储存json格式的资料。储存的量大概在10亿级别,再往上效能就下降了,除非另外分库。
Hbase是架构在hdfs上的列式储存,擅长rowkey的快速查询,但模糊匹配查询(其实是前模糊或全模糊)不擅长,但储存的量可以达到百亿甚至以上,比mongodb的储存量大多了。

关系型资料库与实时型资料库有什么区别?

■关系资料库 facts and information
关系资料库是建立在集合代数基础上,应用数学方法来处理资料库中的资料。现实世界中的各种实体以及实体之间的各种联络均用关系模型来表示。
关系模型由关系资料结构、关系操作集合、关系完整性约束三部分组成。
全关系系统十二准则
全关系系统应该完全支援关系模型的所有特征。关系模型的奠基人E.F.Codd具体地给出了全关系系统应遵循的基本准则。
;\'\'准则0\'\' : 一个关系形的关系资料库系统必须能完全通过它的关系能力来管理资料库。
;\'\'准则1\'\' 资讯准则 : 关系资料库系统的所有资讯都应该在逻辑一级上用表中的值这一种方法显式的表示。
;\'\'准则2\'\' 保证访问准则 : 依靠表名、主码和列名的组合,保证能以逻辑方式访问关系资料库中的每个资料项。
;\'\'准则3\'\' 空值的系统化处理 : 全关系的关系资料库系统支援空值的概念,并用系统化的方法处理空值。
;\'\'准则4\'\' 基于关系模型的动态的联机资料字典 : 资料库的描述在逻辑级上和普通资料采用同样的表述方式。
;\'\'准则5\'\' 统一的资料子语言 :
一个关系资料库系统可以具有几种语言和多种终端访问方式,但必须有一种语言,它的语句可以表示为严格语法规定的字串,并能全面的支援各种规则。
;\'\'准则6\'\' 检视更新准则 : 所有理论上可更新的检视也应该允许由系统更新。
;\'\'准则7\'\' 高阶的插入、修改和删除操作 : 系统应该对各种操作进行查询优化。
;\'\'准则8\'\' 资料的物理独立性 : 无论资料库的资料在储存表示或存取方法上作任何变化,应用程式和终端活动都保持逻辑上的不变性。
;\'\'准则9\'\' 资料逻辑独立性 : 当对基本关系进行理论上资讯不受损害的任何改变时,应用程式和终端活动都保持逻辑上的不变性。
;\'\'准则10\'\' 资料完整的独立性 : 关系资料库的完整性约束条件必须是用资料库语言定义并存储在资料字典中的。
;\'\'准则11\'\' 分布独立性 : 关系资料库系统在引入分布资料或资料重新分布时保持逻辑不变。
;\'\'准则12\'\' 无破坏准则 : 如果一个关系资料库系统具有一个低阶语言,那么这个低阶语言不能违背或绕过完整性准则。
■实时资料库是资料库系统发展的一个分支,它适用于处理不断更新的快速变化的资料及具有时间限制的事务处理。实时资料库技术是实时系统和资料库技术相结合的产物,研究人员希望利用资料库技术来解决实时系统中的资料管理问题,同时利用实时技术为实时资料库提供时间驱动排程和资源分配演算法。然而,实时资料库并非是两者在概念、结构和方法上的简单整合。需要针对不同的应用需求和应用特点,对实时资料模型、实时事务排程与资源分配策略、实时资料查询语言、实时资料通讯等大量问题作深入的理论研究。实时资料库系统的主要研究内容包括:
实时资料库模型
实时事务排程:包括并发控制、冲突解决、死锁等内容
容错性与错误恢复
访问准入控制
记忆体组织与管理
I/O与磁碟排程
主记忆体资料库系统
不精确计算问题
放松的可序列化问题
实时SQL
实时事务的可预测性
研究现状与发展实时资料库系统最早出现在1988年3月的ACM SIGMOD Record的一期专刊中。随后,一个成熟的研究群体逐渐出现,这标志着实时领域与资料库领域的融合,标志着实时资料库这个新兴研究领域的确立。此后,出现了大批有关实时资料库方面的论文和原型系统。人机互动技术与智慧资讯处理实验室实时资料库小组一直致力于实时系统、实时智慧、实时资料库系统及相关技术的研究与开发,并取得了一定的成绩。

Hadoop,MapReduce,YARN和Spark的区别与联系

  (1) Hadoop 1.0

  第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。

  (2) Hadoop 2.0

  第二代Hadoop,为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的。针对Hadoop 1.0中的单NameNode制约HDFS的扩展性问题,提出了HDFS Federation,它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展;针对Hadoop 1.0中的MapReduce在扩展性和多框架支持方面的不足,提出了全新的资源管理框架YARN(Yet Another Resource Negotiator),它将JobTracker中的资源管理和作业控制功能分开,分别由组件ResourceManager和ApplicationMaster实现,其中,ResourceManager负责所有应用程序的资源分配,而ApplicationMaster仅负责管理一个应用程序。对应Hadoop版本为Hadoop 0.23.x和2.x。

  (3) MapReduce 1.0或者MRv1(MapReduceversion 1)

  第一代MapReduce计算框架,它由两部分组成:编程模型(programming model)和运行时环境(runtime environment)。它的基本编程模型是将问题抽象成Map和Reduce两个阶段,其中Map阶段将输入数据解析成key/value,迭代调用map()函数处理后,再以key/value的形式输出到本地目录,而Reduce阶段则将key相同的value进行规约处理,并将最终结果写到HDFS上。它的运行时环境由两类服务组成:JobTracker和TaskTracker,其中,JobTracker负责资源管理和所有作业的控制,而TaskTracker负责接收来自JobTracker的命令并执行它。

  (4)MapReduce 2.0或者MRv2(MapReduce version 2)或者NextGen MapReduc

  MapReduce 2.0或者MRv2具有与MRv1相同的编程模型,唯一不同的是运行时环境。MRv2是在MRv1基础上经加工之后,运行于资源管理框架YARN之上的MRv1,它不再由JobTracker和TaskTracker组成,而是变为一个作业控制进程ApplicationMaster,且ApplicationMaster仅负责一个作业的管理,至于资源的管理,则由YARN完成。

  简而言之,MRv1是一个独立的离线计算框架,而MRv2则是运行于YARN之上的MRv1。

  (5)Hadoop-MapReduce(一个离线计算框架)

  Hadoop是google分布式计算框架MapReduce与分布式存储系统GFS的开源实现,由分布式计算框架MapReduce和分布式存储系统HDFS(Hadoop Distributed File System)组成,具有高容错性,高扩展性和编程接口简单等特点,现已被大部分互联网公司采用。

  (6)Hadoop-YARN(Hadoop 2.0的一个分支,实际上是一个资源管理系统)

  YARN是Hadoop的一个子项目(与MapReduce并列),它实际上是一个资源统一管理系统,可以在上面运行各种计算框架(包括MapReduce、Spark、Storm、MPI等)。

  

  当前Hadoop版本比较混乱,让很多用户不知所措。实际上,当前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。

  

  Borg/YARN/Mesos/Torca/Corona一类系统可以为公司构建一个内部的生态系统,所有应用程序和服务可以“和平而友好”地运行在该生态系统上。有了这类系统之后,你不必忧愁使用Hadoop的哪个版本,是Hadoop 0.20.2还是 Hadoop 1.0,你也不必为选择何种计算模型而苦恼,因此各种软件版本,各种计算模型可以一起运行在一台“超级计算机”上了。

  从开源角度看,YARN的提出,从一定程度上弱化了多计算框架的优劣之争。YARN是在Hadoop MapReduce基础上演化而来的,在MapReduce时代,很多人批评MapReduce不适合迭代计算和流失计算,于是出现了Spark和Storm等计算框架,而这些系统的开发者则在自己的网站上或者论文里与MapReduce对比,鼓吹自己的系统多么先进高效,而出现了YARN之后,则形势变得明朗:MapReduce只是运行在YARN之上的一类应用程序抽象,Spark和Storm本质上也是,他们只是针对不同类型的应用开发的,没有优劣之别,各有所长,合并共处,而且,今后所有计算框架的开发,不出意外的话,也应是在YARN之上。这样,一个以YARN为底层资源管理平台,多种计算框架运行于其上的生态系统诞生了。

  

  目前spark是一个非常流行的内存计算(或者迭代式计算,DAG计算)框架,在MapReduce因效率低下而被广为诟病的今天,spark的出现不禁让大家眼前一亮。

  从架构和应用角度上看,spark是一个仅包含计算逻辑的开发库(尽管它提供个独立运行的master/slave服务,但考虑到稳定后以及与其他类型作业的继承性,通常不会被采用),而不包含任何资源管理和调度相关的实现,这使得spark可以灵活运行在目前比较主流的资源管理系统上,典型的代表是mesos和yarn,我们称之为“spark on mesos”和“spark on yarn”。将spark运行在资源管理系统上将带来非常多的收益,包括:与其他计算框架共享集群资源;资源按需分配,进而提高集群资源利用率等。

  FrameWork On YARN

  运行在YARN上的框架,包括MapReduce-On-YARN, Spark-On-YARN, Storm-On-YARN和Tez-On-YARN。

  (1)MapReduce-On-YARN:YARN上的离线计算;

  (2)Spark-On-YARN:YARN上的内存计算;

  (3)Storm-On-YARN:YARN上的实时/流式计算;

  (4)Tez-On-YARN:YARN上的DAG计算
参考技术A

可以只用一行代码来运行MapReduce作业:JobClient.runJon(conf),Job作业运行时参与的四个实体:


     1.JobClient 写代码,配置作业,提交作业。

     2.JobTracker:初始化作业,分配作业,协调作业运行。这是一个java程序,主类是JobTracker。

     3.TaskTracker:运行作业划分后的任务,即分配数据分配上执行Map或Reduce任务。

     4.HDFS:保存作业数据、配置信息等,保存作业结果。


Map/Reduce 作业总体执行流程:

     代码编写 ----> 作业配置  ---->  作业提交 ----> Map任务分配和执行 ----> 处理中间结果 ---->  Reduce任务分配与执行 ---->  输出结果

而对于每个作业的执行,又包含:

     输入准备 ----> 任务执行 ----> 输出结果

作业提交JobClient:

     JobClient的runJob方法产生一个Jobclient实例并调用其submitJob方法,然后runJob开始循环吗,并在循环中调用getTaskCompetionEvents方法,获得TaskCompletionEvent实例,每秒轮询作业进度(后面有介绍进度和状态更新),把进度写到控制台,作业完成后显示作业计数器,若失败,则把错误记录到控制台。


     submitJob方法作业提交的过程:

     1.向JobTracker请求一个新的JobId。

     2.检查作业相关路径,如果路径不正确就会返回错误。

     3.计算作业输入分片及其划分信息。

     4.将作业运行需要的资源(jar文件、配置文件等)复制到Shared HDFS,并

复制多个副本(参数控制,默认值为10)供tasktracker访问,也会将计算的分片复制到HDFS。

     5.调用JobTracker对象的submitJob()方法来真正提交作业,告诉JobTracker作业准备执行。


作业的初始化JobTracker:

     JobTracker收到submitJob方法调用后,会把调用放入到一个内部队列,由作业调度器(Job scheduler)进行调度并对其初始化。Job初始化即创建一个作业对象。

     当作业被调度后,JobTracker会创建一个代表这个作业的JobInProgress对象,并将任务和记录信息封装在这个对象中,以便跟踪任务状态和进程。

     初始化过程就是JobInProgress对象的initTasks方法进行初始化的。


     初始化步骤:

          1.从HDFS中读取作业对应的job.split信息,为后面的初始化做好准备。

          2.创建并初始化map和reduce任务。根据数据分片信息中的个数确定map task的个数,然后为每个map task生成一个TaskInProgress对象来处理数据分片,先将其放入nonRunningMapCache,以便JobTracker分配任务的时候使用。接下来根据JobConf中的mapred.reduce.tasks属性利用setNumReduceTasks()方法设置reduce task的数量,然后同map task创建方式。

          3.最后就是创建两个初始化task,进行map和reduce的初始化。


任务的分配JobTracker:

    消息传递HeartBeat: tasktracker运行一个简单循环定期发送心跳(heartbeat)给JobTracker。由心跳告知JobTracker自己是否存活,同时作为消息通道传递其它信息(请求新task)。作为心跳的一部分,tasktracker会指明自己是否已准备好运行新的任务,如果是,jobtracker会分配它一个任务。


    分配任务所属于的作业:在Jobtracker分配任务前需先确定任务所在的作业。后面会介绍到各种作业调度算法,默认是一个FIFO的作业调度。


    分配Map和Reduce任务:tasktracker有固定数量的任务槽,一个tasktracker可以同时运行多个Map和Reduce任务,但其准确的数量由tasktracker的核的数量和内存大小决定。默认调度器会先填满Map任务槽,再填Reduce任务槽。jobtracker会选择距离离分片文件最近的tasktracker,最理想情况下,任务是数据本地化(data-local)的,当然也可以是机架本地化(rack-local),如果不是本地化的,那么他们就需要从其他机架上检索数据。Reduce任务分配很简单,jobtracker会简单的从待运行的reduce任务列表中选取下一个来执行,不用考虑数据本地化。


任务的执行TaskTracker:

     TaskTracker收到新任务后,就要在本地运行任务了,运行任务的第一步就是通过localizedJob将任务本地化所需要的注入配置、数据、程序等信息进行本地化。


     1.本地化数据:从共享文件系统将job.split 、job.jar (在分布式缓存中)复制本地,将job配置信息写入job.xml。

     2.新建本地工作目录:tasktracker会加压job.jar文件到本工作目录。

     3.调用launchTaskForJob方法发布任务(其中会新建TaskRunner实例运行任务),如果是Map任务就启用MapTaskRunner,对于Reduce就是ReduceTaskRunner。

   

  在这之后,TaskRunner会启用一个新的JVM来运行每个Map/Reduce任务,防止程序原因而导致tasktracker崩溃,但不同任务间重用JVM还是可以的,后续会讲到任务JVM重用。


     对于单个Map,任务执行的简单流程是:

     1.分配任务执行参数

     2.在Child临时文件中添加map任务信息(Child是运行Map和Reduce任务的主进程)

     3.配置log文件夹,配置map任务的通信和输出参数

     4.读取input split,生成RecordReader读取数据

     5.为Map生成MapRunnable,依次从RecordReader中接收数据,并调用Map函数进行处理。

     6.最后将map函数的输出调用collect收集到MapOutputBuffer(参数控制其大小)中。


Streaming和Pipes:

     Streaming和Pipes都运行特殊的Map和Reduce任务,目的是运行用户提供的可执行程序并与之通信。


     Streaming:使用标准输入输出Streaming与进程进行通信。


     Pipes:用来监听套接字,会发送一个端口号给C++程序,两者便可建立链接。

     

进度和状态更新:

     一个作业和它的任务都有状态(status),其中包括:运行成功失败状态、Map/Reduce进度、作业计数器值、状态消息。


     状态消息与客户端的通信:

     1.对于Map任务Progress的追踪:progress是已经处理完的输入所占的比例。

     2.对于Reduce:稍复杂,reduce任务分三个阶段(每个阶段占1/3),复制、排序和Reduce处理,若reduce已执行一半的输入的话,那么任务进度便是1/3+1/3+1/6=5/6。

     3.任务计数器:任务有一组计数器,负责对任务运行各个事件进行计数。

     4.任务进度报告:如果任务报告了进度,便会设置一个标记以表明状态将被发送到tasktracker。有一个独立线程每隔三秒检查一次此标记,如果已设置,则告知tasktracker当前状态。

     5.tasktracker进度报告:tasktracker会每隔5秒(这个心跳是由集群大小决定,集群越大时间会越长)发送heartbeat到jobtracker,并且tasktracker运行的所有状态都会在调用中被发送到jobtracker。

     6.jobtracker合并各任务报告:产生一个表明所有运行作业机器所含任务状态的全局视图。

     前面提到的JobClient就是通过每秒查询JobTracker来接收最新状态,而且客户端JobClient的getJob方法可以得到一个RunningJob的实例,其包含了作业的所以状态信息。

     

作业的完成:

     当jobtracker收到作业最后一个任务已完成的通知后,便把作业状态设置成成功。JobClient查询状态时,便知道任务已成功完成,于是JobClient打印一条消息告知用户,然后从runJob方法返回。


     如果jobtracker有相应设置,也会发送一个Http作业通知给客户端,希望收到回调指令的客户端可以通过job.end.notification.url属性来进行设置。


     jobtracker情况作业的工作状态,指示tasktracker也清空作业的工作状态,如删除中间输出。

     

失败

     实际情况下,用户的代码存在软件错误进程会崩溃,机器也会产生故障,但Hadoop能很好的应对这些故障并完成作业。


     1.任务失败    

     子任务异常:如Map/Reduce任务中的用户代码抛出异常,子任务JVM进程会在退出前向父进程tasktracker发送错误报告,错误被记录用户日志。tasktracker会将此次task attempt标记为tailed,并释放这个任务槽运行另外一个任务。


     子进程JVM突然退出:可能由于JVM bug导致用户代码造成的某些特殊原因导致JVM退出,这种情况下,tasktracker会注意到进程已经退出,并将此次尝试标记为failed。


     任务挂起:一旦tasktracker注意一段时间没有收到进度更新,便会将任务标记为failed,JVM子进程将被自动杀死。任务失败间隔时间通常为10分钟,可以以作业或者集群为基础设置过期时间,参数为mapred.task.timeout。注意:如果参数值设置为0,则挂起的任务永远不会释放掉它的任务槽,随着时间的推移会降低整个集群的效率。


     任务失败尝试次数:jobtracker得知一个tasktracker失败后,它会重新调度该任务执行,当然,jobtracker会尝试避免重新调度失败过的tasktracker任务。如果一个任务尝试次数超过4次,它将不再被重试。这个值是可以设置的,对于Map任务,参数是mapred.map.max.attempts,对于reduce任务,则由mapred.reduce.max.attempts属性控制。如果次数超过限制,整个作业都会失败。当然,有时我们不希望少数几个任务失败就终止运行的整个作业,因为即使有些任务失败,作业的一些结果可能还是有用的,这种情况下,可以为作业设置在不触发作业失败情况下的允许任务失败的最大百分比,Map任务和Reduce任务可以独立控制,参数为mapred.max.map.failures.percent 和mapred.max.reduce.failures.percent。


     任务尝试中止(kill):任务终止和任务失败不同,task attempt可以中止是因为他是一个推测副本或因为它所处的tasktracker失败,导致jobtracker将它上面的所有task attempt标记为killed。被终止的task attempt不会被计入任务运行尝试次数,因为尝试中止并不是任务的错。


     2.tasktracker失败

     tasktracker由于崩溃或者运行过慢而失败,他将停止向jobtracker发送心跳(或很少发送心跳)。jobtracker注意已停止发送心跳的tasktracker(过期时间由参数mapred.tasktracker.expiry.interval设置,单位毫秒),并将它从等待调度的tasktracker池中移除。如果是未完成的作业,jobtracker会安排次tasktracker上已经运行成功的Map任务重新运行,因为此时reduce任务已无法访问(中间输出存放在失败的tasktracker的本地文件系统上)。


     即使tasktracker没有失败,也有可能被jobtracker列入黑名单。如果tasktracker上面的失败任务数量远远高于集群的平均失败任务次数,他就会被列入黑名单,被列入黑名单的tasktracker可以通过重启从jobtracker黑名单中移除。


     3.jobtracker失败

     老版本的JobTracker失败属于单点故障,这种情况下作业注定失败。


作业调度:

     早期作业调度FIFO:按作业提交顺序先进先出。可以设置优先级,通过设置mapred.job.priority属性或者JobClient的setJobPriority()方法制定优先级(优先级别:VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW)。注意FIFO调度算法不支持抢占(preemption),所以高优先级作业仍然会被那些已经开始的长时间运行的低优先级作业所阻塞。


     Fair Scheduler:目标是让每个用户公平地共享集群能力。当集群存在很多作业时,空闲的任务槽会以”让每个用户共享集群“的方式进行分配。默认每个用户都有自己的作业池。FairScheduler支持抢占,所以,如果一个池在特定的一段时间未得到公平地资源共享,它会终止池中得到过多的资源任务,以便把任务槽让给资源不足的池。FairScheduler是一个后续模块,使用它需要将其jar文件放在Hadoop的类路径下。可以通过参数map.red.jobtracker.taskScheduler属性配置(值为org.apache.hadoop.mapred.FairScheduler)


     Capacity Scheduler:

     集群由很多队列组成,每个队列都有一个分配能力,这一点与FairScheduler类似,只不过在每个队列内部,作业根据FIFO方式进行调度。本质上说,Capacity Scheduler允许用户或组织为每个用户模拟一个独立使用FIFO的集群。


shuffle和排序:

     MapReduce确保每个Reducer的输入都是按键排序的。系统执行排序的过程-将map输出作为输入传给reducer的过程称为shuffle。shuffle属于不断被优化和改进的代码库的一部分,从许多方面来看,shuffle是MapReduce的心脏。


     整个shuffle的流程应该是这样:

     map结果划分partition  排序sort 分割spill   合并同一划分   合并同一划分  合并结果排序 reduce处理 输出


     Map端:

     写入缓冲区:Map函数的输出,是由collector处理的,它并不是简单的将结果写到磁盘。它利用缓冲的方式写到内存,并处于效率的考虑进行预排序。每个map都有一个环形的内存缓冲区,用于任务输出,默认缓冲区大小为100MB(由参数io.sort.mb调整),一旦缓冲区内容达到阈值(默认0.8),后台进程边开始把内容写到磁盘(spill),在写磁盘过程中,map输出继续被写到缓冲区,但如果缓冲区被填满,map会阻塞知道写磁盘过程完成。写磁盘将按照轮询方式写到mapred.local.dir属性制定的作业特定子目录中。


     写出缓冲区:collect将缓冲区的内容写出时,会调用sortAndSpill函数,这个函数作用主要是创建spill文件,按照key值对数据进行排序,按照划分将数据写入文件,如果配置了combiner类,会先调用combineAndSpill函数再写文件。sortAndSpill每被调用一次,就会写一个spill文件。


     合并所有Map的spill文件:TaskTracker会在每个map任务结束后对所有map产生的spill文件进行merge,merge规则是根据分区将各个spill文件中数据同一分区中的数据合并在一起,并写入到一个已分区且排序的map输出文件中。待唯一的已分区且已排序的map输出文件写入最后一条记录后,map端的shuffle阶段就结束了。


     在写磁盘前,线程首先根据数据最终要传递到的reducer把数据划分成响应的分区(partition),在每个分区中,后台线程按键进行内排序,如果有一个combiner,它会在排序后的输出上运行。


     内存达到溢出写的阈值时,就会新建一个溢出写文件,因为map任务完成其最后一个输出记录之后,会有几个溢出写文件。在任务完成前,溢出写文件会被合并成一个已分区且已排序的输出文件。配置属性io.sort.facor控制一次最多能合并多少流,默认值是10。


     如果已经指定combiner,并且写次数至少为3(通过min.mum.spills.for.combine设置)时,则combiner就会在输出文件写到磁盘之前运行。运行combiner的意义在于使map输出更紧凑,舍得写到本地磁盘和传给reducer的数据更少。


     写磁盘时压缩:写磁盘时压缩会让写的速度更快,节约磁盘空间,并且减少传给reducer的数据量。默认情况下,输出是不压缩的,但可以通过设置mapred.compress.map.output值为true,就可以启用压缩。使用的压缩库是由mapred.map.output.compression.codec制定。


     reducer获得文件分区的工作线程:reducer通过http方式得到输出文件的分区,用于文件分区的工作线程数量由tracker.http.threads属性指定,此设置针对的是每个tasktracker,而不是每个map任务槽。默认值为40,在大型集群上此值可以根据需要而增加。


     Reduce端:

     复制阶段:reduce会定期向JobTracker获取map的输出位置,一旦拿到输出位置,reduce就会从对应的TaskTracker上复制map输出到本地(如果map输出很小,则会被复制到TaskTracker节点的内存中,否则会被让如磁盘),而不会等到所有map任务结束(当然这个也有参数控制)。


     合并阶段:从各个TaskTracker上复制的map输出文件(无论在磁盘还是内存)进行整合,并维持数据原来的顺序。


     Reduce阶段:从合并的文件中顺序拿出一条数据进行reduce函数处理,然后将结果输出到本地HDFS。


     Map的输出文件位于运行map任务的tasktracker的本地磁盘,现在,tasktracker要为分区文件运行reduce任务。每个任务完成时间可能不同,但是只要有一个任务完成,reduce任务就开始复制其输出,这就是reduce任务的复制阶段(copy phase)。reduce任务有少量复制线程,因此能够并行取得map输出。默认值是5个线程,可以通过mapred.reduce.parallel.copies属性设置。


     Reducer如何得知从哪个tasktracker获得map输出:map任务完成后会通知其父tasktracker状态已更新,tasktracker进而通知(通过heart beat)jobtracker。因此,JobTracker就知道map输出和tasktracker之间的映射关系,reducer中的一个线程定期询问jobtracker以便获知map输出位置。由于reducer有可能失败,因此tasktracker并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们,相反他会等待jobtracker告示它可以删除map输出时才删除,这是作业完成后最后执行的。


     如果map输出很小,则会被直接复制到reduce tasktracker的内存缓冲区(大小由mapred.job.shuffle.input.buffer.percent控制,占堆空间的百分比),否则,map输出被复制到磁盘。一旦内存缓冲区达到阈值大小(由mapred.iob.shuffle.merge.percent)

或达到map输出阈值大小(mapred.inmem.threadhold),则合并后溢出写到磁盘中。


     随着磁盘上副本增多,后台线程会将他们合并为更大的、排好序的文件。注意:为了合并,压缩的map输出必须在内存中被解压缩。


     排序阶段:复制阶段完成后,reduce任务会进入排序阶段,更确切的说是合并阶段,这个阶段将合并map输出,维持其顺序排列。合并是循环进行的,由合并因子决定每次合并的输出文件数量。但让有可能会产生中间文件。


     reduce阶段:在最后reduce阶段,会直接把排序好的文件输入reduce函数,不会对中间文件进行再合并,最后的合并即可来自内存,也可来自磁盘。此阶段的输出会直接写到文件系统,一般为hdfs。


     细节:这里合并是并非平均合并,比如有40个文件,合并因子为10,我们并不是每趟合并10个,合并四趟。而是第一趟合并4个,后三趟合并10,在最后一趟中4个已合并的文件和余下6个未合并会直接并入reduce。

以上是关于关系型资料库与Hadoop的本质区别在啥地方的主要内容,如果未能解决你的问题,请参考以下文章

AAR是啥意思?有啥特点?在啥地方应用

C语言中的 局部变量,存储在啥地方?

分针与时针在啥时候成直角

vs2013编译器随机基地址在啥地方设置

键盘的break键在啥地方呀

MPP 与 Hadoop是什么关系?