如何在Windows下面运行hadoop的MapReduce程序

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在Windows下面运行hadoop的MapReduce程序相关的知识,希望对你有一定的参考价值。

1. 首先登入hadoop 集群里面的一个节点, 创建一个java源文件, 偷懒起见, 基本盗用官方的word count (因为本文的目的是教会你如何快编写和运行一个MapReduce程序, 而不是如何写好一个功能齐全的MapReduce程序)
内容如下:
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class myword
public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context
) throws IOException, InterruptedException
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens())
word.set(itr.nextToken());
context.write(word, one);



public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWritable>
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException
int sum = 0;
for (IntWritable val : values)
sum += val.get();

result.set(sum);
context.write(key, result);


public static void main(String[] args) throws Exception
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
if (otherArgs.length != 2)
System.err.println('Usage: wordcount <in> <out>');
System.exit(2);

Job job = new Job(conf, 'word count');
job.setJarByClass(myword.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);


与官方版本相比, 主要做了两处修改
1) 为了简单起见,去掉了开头的 package org.apache.hadoop.examples;
2) 将类名从 WordCount 改为 myword, 以体现是我们自己的工作成果 :)
2. 拿到hadoop 运行的class path, 主要为编译所用
运行命令
hadoop classpath
保存打出的结果,本文用的hadoop 版本是Pivotal 公司的Pivotal hadoop, 例子:
/etc/gphd/hadoop/conf:/usr/lib/gphd/hadoop/lib/*:/usr/lib/gphd/hadoop/.//*:/usr/lib/gphd/hadoop-hdfs/./:/usr/lib/gphd/hadoop-hdfs/lib/*:/usr/lib/gphd/hadoop-hdfs/.//*:/usr/lib/gphd/hadoop-yarn/lib/*:/usr/lib/gphd/hadoop-yarn/.//*:/usr/lib/gphd/hadoop-mapreduce/lib/*:/usr/lib/gphd/hadoop-mapreduce/.//*::/etc/gphd/pxf/conf::/usr/lib/gphd/pxf/pxf-core.jar:/usr/lib/gphd/pxf/pxf-api.jar:/usr/lib/gphd/publicstage:/usr/lib/gphd/gfxd/lib/gemfirexd.jar::/usr/lib/gphd/zookeeper/zookeeper.jar:/usr/lib/gphd/hbase/lib/hbase-common.jar:/usr/lib/gphd/hbase/lib/hbase-protocol.jar:/usr/lib/gphd/hbase/lib/hbase-client.jar:/usr/lib/gphd/hbase/lib/hbase-thrift.jar:/usr/lib/gphd/hbase/lib/htrace-core-2.01.jar:/etc/gphd/hbase/conf::/usr/lib/gphd/hive/lib/hive-service.jar:/usr/lib/gphd/hive/lib/libthrift-0.9.0.jar:/usr/lib/gphd/hive/lib/hive-metastore.jar:/usr/lib/gphd/hive/lib/libfb303-0.9.0.jar:/usr/lib/gphd/hive/lib/hive-common.jar:/usr/lib/gphd/hive/lib/hive-exec.jar:/usr/lib/gphd/hive/lib/postgresql-jdbc.jar:/etc/gphd/hive/conf::/usr/lib/gphd/sm-plugins/*:
3. 编译
运行命令
javac -classpath xxx ./myword.java
xxx部分就是上一步里面取到的class path
运行完此命令后, 当前目录下会生成一些.class 文件, 例如:
myword.class myword$IntSumReducer.class myword$TokenizerMapper.class
4. 将class文件打包成.jar文件
运行命令
jar -cvf myword.jar ./*.class
至此, 目标jar 文件成功生成
5. 准备一些文本文件, 上传到hdfs, 以做word count的input
例子:
随意创建一些文本文件, 保存到mapred_test 文件夹
运行命令
hadoop fs -put ./mapred_test/
确保此文件夹成功上传到hdfs 当前用户根目录下
6. 运行我们的程序
运行命令
hadoop jar ./myword.jar myword mapred_test output
顺利的话, 此命令会正常进行, 一个MapReduce job 会开始工作, 输出的结果会保存在 hdfs 当前用户根目录下的output 文件夹里面。
至此大功告成!
如果还需要更多的功能, 我们可以修改前面的源文件以达到一个真正有用的MapReduce job。
但是原理大同小异, 练手的话, 基本够了。
一个抛砖引玉的简单例子, 欢迎板砖。
参考技术A

可以只用一行代码来运行MapReduce作业:JobClient.runJon(conf),Job作业运行时参与的四个实体:


     1.JobClient 写代码,配置作业,提交作业。

     2.JobTracker:初始化作业,分配作业,协调作业运行。这是一个java程序,主类是JobTracker。

     3.TaskTracker:运行作业划分后的任务,即分配数据分配上执行Map或Reduce任务。

     4.HDFS:保存作业数据、配置信息等,保存作业结果。


Map/Reduce 作业总体执行流程:

     代码编写 ----> 作业配置  ---->  作业提交 ----> Map任务分配和执行 ----> 处理中间结果 ---->  Reduce任务分配与执行 ---->  输出结果

而对于每个作业的执行,又包含:

     输入准备 ----> 任务执行 ----> 输出结果

作业提交JobClient:

     JobClient的runJob方法产生一个Jobclient实例并调用其submitJob方法,然后runJob开始循环吗,并在循环中调用getTaskCompetionEvents方法,获得TaskCompletionEvent实例,每秒轮询作业进度(后面有介绍进度和状态更新),把进度写到控制台,作业完成后显示作业计数器,若失败,则把错误记录到控制台。


     submitJob方法作业提交的过程:

     1.向JobTracker请求一个新的JobId。

     2.检查作业相关路径,如果路径不正确就会返回错误。

     3.计算作业输入分片及其划分信息。

     4.将作业运行需要的资源(jar文件、配置文件等)复制到Shared HDFS,并

复制多个副本(参数控制,默认值为10)供tasktracker访问,也会将计算的分片复制到HDFS。

     5.调用JobTracker对象的submitJob()方法来真正提交作业,告诉JobTracker作业准备执行。


作业的初始化JobTracker:

     JobTracker收到submitJob方法调用后,会把调用放入到一个内部队列,由作业调度器(Job scheduler)进行调度并对其初始化。Job初始化即创建一个作业对象。

     当作业被调度后,JobTracker会创建一个代表这个作业的JobInProgress对象,并将任务和记录信息封装在这个对象中,以便跟踪任务状态和进程。

     初始化过程就是JobInProgress对象的initTasks方法进行初始化的。


     初始化步骤:

          1.从HDFS中读取作业对应的job.split信息,为后面的初始化做好准备。

          2.创建并初始化map和reduce任务。根据数据分片信息中的个数确定map task的个数,然后为每个map task生成一个TaskInProgress对象来处理数据分片,先将其放入nonRunningMapCache,以便JobTracker分配任务的时候使用。接下来根据JobConf中的mapred.reduce.tasks属性利用setNumReduceTasks()方法设置reduce task的数量,然后同map task创建方式。

          3.最后就是创建两个初始化task,进行map和reduce的初始化。


任务的分配JobTracker:

    消息传递HeartBeat: tasktracker运行一个简单循环定期发送心跳(heartbeat)给JobTracker。由心跳告知JobTracker自己是否存活,同时作为消息通道传递其它信息(请求新task)。作为心跳的一部分,tasktracker会指明自己是否已准备好运行新的任务,如果是,jobtracker会分配它一个任务。


    分配任务所属于的作业:在Jobtracker分配任务前需先确定任务所在的作业。后面会介绍到各种作业调度算法,默认是一个FIFO的作业调度。


    分配Map和Reduce任务:tasktracker有固定数量的任务槽,一个tasktracker可以同时运行多个Map和Reduce任务,但其准确的数量由tasktracker的核的数量和内存大小决定。默认调度器会先填满Map任务槽,再填Reduce任务槽。jobtracker会选择距离离分片文件最近的tasktracker,最理想情况下,任务是数据本地化(data-local)的,当然也可以是机架本地化(rack-local),如果不是本地化的,那么他们就需要从其他机架上检索数据。Reduce任务分配很简单,jobtracker会简单的从待运行的reduce任务列表中选取下一个来执行,不用考虑数据本地化。


任务的执行TaskTracker:

     TaskTracker收到新任务后,就要在本地运行任务了,运行任务的第一步就是通过localizedJob将任务本地化所需要的注入配置、数据、程序等信息进行本地化。


     1.本地化数据:从共享文件系统将job.split 、job.jar (在分布式缓存中)复制本地,将job配置信息写入job.xml。

     2.新建本地工作目录:tasktracker会加压job.jar文件到本工作目录。

     3.调用launchTaskForJob方法发布任务(其中会新建TaskRunner实例运行任务),如果是Map任务就启用MapTaskRunner,对于Reduce就是ReduceTaskRunner。

   

  在这之后,TaskRunner会启用一个新的JVM来运行每个Map/Reduce任务,防止程序原因而导致tasktracker崩溃,但不同任务间重用JVM还是可以的,后续会讲到任务JVM重用。


     对于单个Map,任务执行的简单流程是:

     1.分配任务执行参数

     2.在Child临时文件中添加map任务信息(Child是运行Map和Reduce任务的主进程)

     3.配置log文件夹,配置map任务的通信和输出参数

     4.读取input split,生成RecordReader读取数据

     5.为Map生成MapRunnable,依次从RecordReader中接收数据,并调用Map函数进行处理。

     6.最后将map函数的输出调用collect收集到MapOutputBuffer(参数控制其大小)中。


Streaming和Pipes:

     Streaming和Pipes都运行特殊的Map和Reduce任务,目的是运行用户提供的可执行程序并与之通信。


     Streaming:使用标准输入输出Streaming与进程进行通信。


     Pipes:用来监听套接字,会发送一个端口号给C++程序,两者便可建立链接。

     

进度和状态更新:

     一个作业和它的任务都有状态(status),其中包括:运行成功失败状态、Map/Reduce进度、作业计数器值、状态消息。


     状态消息与客户端的通信:

     1.对于Map任务Progress的追踪:progress是已经处理完的输入所占的比例。

     2.对于Reduce:稍复杂,reduce任务分三个阶段(每个阶段占1/3),复制、排序和Reduce处理,若reduce已执行一半的输入的话,那么任务进度便是1/3+1/3+1/6=5/6。

     3.任务计数器:任务有一组计数器,负责对任务运行各个事件进行计数。

     4.任务进度报告:如果任务报告了进度,便会设置一个标记以表明状态将被发送到tasktracker。有一个独立线程每隔三秒检查一次此标记,如果已设置,则告知tasktracker当前状态。

     5.tasktracker进度报告:tasktracker会每隔5秒(这个心跳是由集群大小决定,集群越大时间会越长)发送heartbeat到jobtracker,并且tasktracker运行的所有状态都会在调用中被发送到jobtracker。

     6.jobtracker合并各任务报告:产生一个表明所有运行作业机器所含任务状态的全局视图。

     前面提到的JobClient就是通过每秒查询JobTracker来接收最新状态,而且客户端JobClient的getJob方法可以得到一个RunningJob的实例,其包含了作业的所以状态信息。

     

作业的完成:

     当jobtracker收到作业最后一个任务已完成的通知后,便把作业状态设置成成功。JobClient查询状态时,便知道任务已成功完成,于是JobClient打印一条消息告知用户,然后从runJob方法返回。


     如果jobtracker有相应设置,也会发送一个Http作业通知给客户端,希望收到回调指令的客户端可以通过job.end.notification.url属性来进行设置。


     jobtracker情况作业的工作状态,指示tasktracker也清空作业的工作状态,如删除中间输出。

     

失败

     实际情况下,用户的代码存在软件错误进程会崩溃,机器也会产生故障,但Hadoop能很好的应对这些故障并完成作业。


     1.任务失败    

     子任务异常:如Map/Reduce任务中的用户代码抛出异常,子任务JVM进程会在退出前向父进程tasktracker发送错误报告,错误被记录用户日志。tasktracker会将此次task attempt标记为tailed,并释放这个任务槽运行另外一个任务。


     子进程JVM突然退出:可能由于JVM bug导致用户代码造成的某些特殊原因导致JVM退出,这种情况下,tasktracker会注意到进程已经退出,并将此次尝试标记为failed。


     任务挂起:一旦tasktracker注意一段时间没有收到进度更新,便会将任务标记为failed,JVM子进程将被自动杀死。任务失败间隔时间通常为10分钟,可以以作业或者集群为基础设置过期时间,参数为mapred.task.timeout。注意:如果参数值设置为0,则挂起的任务永远不会释放掉它的任务槽,随着时间的推移会降低整个集群的效率。


     任务失败尝试次数:jobtracker得知一个tasktracker失败后,它会重新调度该任务执行,当然,jobtracker会尝试避免重新调度失败过的tasktracker任务。如果一个任务尝试次数超过4次,它将不再被重试。这个值是可以设置的,对于Map任务,参数是mapred.map.max.attempts,对于reduce任务,则由mapred.reduce.max.attempts属性控制。如果次数超过限制,整个作业都会失败。当然,有时我们不希望少数几个任务失败就终止运行的整个作业,因为即使有些任务失败,作业的一些结果可能还是有用的,这种情况下,可以为作业设置在不触发作业失败情况下的允许任务失败的最大百分比,Map任务和Reduce任务可以独立控制,参数为mapred.max.map.failures.percent 和mapred.max.reduce.failures.percent。


     任务尝试中止(kill):任务终止和任务失败不同,task attempt可以中止是因为他是一个推测副本或因为它所处的tasktracker失败,导致jobtracker将它上面的所有task attempt标记为killed。被终止的task attempt不会被计入任务运行尝试次数,因为尝试中止并不是任务的错。


     2.tasktracker失败

     tasktracker由于崩溃或者运行过慢而失败,他将停止向jobtracker发送心跳(或很少发送心跳)。jobtracker注意已停止发送心跳的tasktracker(过期时间由参数mapred.tasktracker.expiry.interval设置,单位毫秒),并将它从等待调度的tasktracker池中移除。如果是未完成的作业,jobtracker会安排次tasktracker上已经运行成功的Map任务重新运行,因为此时reduce任务已无法访问(中间输出存放在失败的tasktracker的本地文件系统上)。


     即使tasktracker没有失败,也有可能被jobtracker列入黑名单。如果tasktracker上面的失败任务数量远远高于集群的平均失败任务次数,他就会被列入黑名单,被列入黑名单的tasktracker可以通过重启从jobtracker黑名单中移除。


     3.jobtracker失败

     老版本的JobTracker失败属于单点故障,这种情况下作业注定失败。


作业调度:

     早期作业调度FIFO:按作业提交顺序先进先出。可以设置优先级,通过设置mapred.job.priority属性或者JobClient的setJobPriority()方法制定优先级(优先级别:VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW)。注意FIFO调度算法不支持抢占(preemption),所以高优先级作业仍然会被那些已经开始的长时间运行的低优先级作业所阻塞。


     Fair Scheduler:目标是让每个用户公平地共享集群能力。当集群存在很多作业时,空闲的任务槽会以”让每个用户共享集群“的方式进行分配。默认每个用户都有自己的作业池。FairScheduler支持抢占,所以,如果一个池在特定的一段时间未得到公平地资源共享,它会终止池中得到过多的资源任务,以便把任务槽让给资源不足的池。FairScheduler是一个后续模块,使用它需要将其jar文件放在Hadoop的类路径下。可以通过参数map.red.jobtracker.taskScheduler属性配置(值为org.apache.hadoop.mapred.FairScheduler)


     Capacity Scheduler:

     集群由很多队列组成,每个队列都有一个分配能力,这一点与FairScheduler类似,只不过在每个队列内部,作业根据FIFO方式进行调度。本质上说,Capacity Scheduler允许用户或组织为每个用户模拟一个独立使用FIFO的集群。


shuffle和排序:

     MapReduce确保每个Reducer的输入都是按键排序的。系统执行排序的过程-将map输出作为输入传给reducer的过程称为shuffle。shuffle属于不断被优化和改进的代码库的一部分,从许多方面来看,shuffle是MapReduce的心脏。


     整个shuffle的流程应该是这样:

     map结果划分partition  排序sort 分割spill   合并同一划分   合并同一划分  合并结果排序 reduce处理 输出


     Map端:

     写入缓冲区:Map函数的输出,是由collector处理的,它并不是简单的将结果写到磁盘。它利用缓冲的方式写到内存,并处于效率的考虑进行预排序。每个map都有一个环形的内存缓冲区,用于任务输出,默认缓冲区大小为100MB(由参数io.sort.mb调整),一旦缓冲区内容达到阈值(默认0.8),后台进程边开始把内容写到磁盘(spill),在写磁盘过程中,map输出继续被写到缓冲区,但如果缓冲区被填满,map会阻塞知道写磁盘过程完成。写磁盘将按照轮询方式写到mapred.local.dir属性制定的作业特定子目录中。


     写出缓冲区:collect将缓冲区的内容写出时,会调用sortAndSpill函数,这个函数作用主要是创建spill文件,按照key值对数据进行排序,按照划分将数据写入文件,如果配置了combiner类,会先调用combineAndSpill函数再写文件。sortAndSpill每被调用一次,就会写一个spill文件。


     合并所有Map的spill文件:TaskTracker会在每个map任务结束后对所有map产生的spill文件进行merge,merge规则是根据分区将各个spill文件中数据同一分区中的数据合并在一起,并写入到一个已分区且排序的map输出文件中。待唯一的已分区且已排序的map输出文件写入最后一条记录后,map端的shuffle阶段就结束了。


     在写磁盘前,线程首先根据数据最终要传递到的reducer把数据划分成响应的分区(partition),在每个分区中,后台线程按键进行内排序,如果有一个combiner,它会在排序后的输出上运行。


     内存达到溢出写的阈值时,就会新建一个溢出写文件,因为map任务完成其最后一个输出记录之后,会有几个溢出写文件。在任务完成前,溢出写文件会被合并成一个已分区且已排序的输出文件。配置属性io.sort.facor控制一次最多能合并多少流,默认值是10。


     如果已经指定combiner,并且写次数至少为3(通过min.mum.spills.for.combine设置)时,则combiner就会在输出文件写到磁盘之前运行。运行combiner的意义在于使map输出更紧凑,舍得写到本地磁盘和传给reducer的数据更少。


     写磁盘时压缩:写磁盘时压缩会让写的速度更快,节约磁盘空间,并且减少传给reducer的数据量。默认情况下,输出是不压缩的,但可以通过设置mapred.compress.map.output值为true,就可以启用压缩。使用的压缩库是由mapred.map.output.compression.codec制定。


     reducer获得文件分区的工作线程:reducer通过http方式得到输出文件的分区,用于文件分区的工作线程数量由tracker.http.threads属性指定,此设置针对的是每个tasktracker,而不是每个map任务槽。默认值为40,在大型集群上此值可以根据需要而增加。


     Reduce端:

     复制阶段:reduce会定期向JobTracker获取map的输出位置,一旦拿到输出位置,reduce就会从对应的TaskTracker上复制map输出到本地(如果map输出很小,则会被复制到TaskTracker节点的内存中,否则会被让如磁盘),而不会等到所有map任务结束(当然这个也有参数控制)。


     合并阶段:从各个TaskTracker上复制的map输出文件(无论在磁盘还是内存)进行整合,并维持数据原来的顺序。


     Reduce阶段:从合并的文件中顺序拿出一条数据进行reduce函数处理,然后将结果输出到本地HDFS。


     Map的输出文件位于运行map任务的tasktracker的本地磁盘,现在,tasktracker要为分区文件运行reduce任务。每个任务完成时间可能不同,但是只要有一个任务完成,reduce任务就开始复制其输出,这就是reduce任务的复制阶段(copy phase)。reduce任务有少量复制线程,因此能够并行取得map输出。默认值是5个线程,可以通过mapred.reduce.parallel.copies属性设置。


     Reducer如何得知从哪个tasktracker获得map输出:map任务完成后会通知其父tasktracker状态已更新,tasktracker进而通知(通过heart beat)jobtracker。因此,JobTracker就知道map输出和tasktracker之间的映射关系,reducer中的一个线程定期询问jobtracker以便获知map输出位置。由于reducer有可能失败,因此tasktracker并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们,相反他会等待jobtracker告示它可以删除map输出时才删除,这是作业完成后最后执行的。


     如果map输出很小,则会被直接复制到reduce tasktracker的内存缓冲区(大小由mapred.job.shuffle.input.buffer.percent控制,占堆空间的百分比),否则,map输出被复制到磁盘。一旦内存缓冲区达到阈值大小(由mapred.iob.shuffle.merge.percent)

或达到map输出阈值大小(mapred.inmem.threadhold),则合并后溢出写到磁盘中。


     随着磁盘上副本增多,后台线程会将他们合并为更大的、排好序的文件。注意:为了合并,压缩的map输出必须在内存中被解压缩。


     排序阶段:复制阶段完成后,reduce任务会进入排序阶段,更确切的说是合并阶段,这个阶段将合并map输出,维持其顺序排列。合并是循环进行的,由合并因子决定每次合并的输出文件数量。但让有可能会产生中间文件。


     reduce阶段:在最后reduce阶段,会直接把排序好的文件输入reduce函数,不会对中间文件进行再合并,最后的合并即可来自内存,也可来自磁盘。此阶段的输出会直接写到文件系统,一般为hdfs。


     细节:这里合并是并非平均合并,比如有40个文件,合并因子为10,我们并不是每趟合并10个,合并四趟。而是第一趟合并4个,后三趟合并10,在最后一趟中4个已合并的文件和余下6个未合并会直接并入reduce。

一文读懂MapR Apache Hadoop的MapR发行版白皮书

概述

战略性的Hadoop

  • 完整、先进、拥有强力支持的Hadoop发行版

易用的Hadoop

  • 从批处理转向实时数据流

  • 内建数据压缩机制

  • 多集群支持

  • 筹划、搭建和管理集群

  • MapR的卷

  • 轻松的规模化管理

可靠的Hadoop

  • 避免作业丢失

  • 用于大规模并具有高可用性的分布式管理节点

  • Hadoop高可用性及直接挂载NFS

  • 使用快照方便地恢复数据

  • 镜像

更快的Hadoop

  • 高性能架构

  • 性能特色

  • 性能测试

结论

概述

现在每天都有2百万人使用着互联网,每一次通话、每一条推特、每一封电子邮件、每一个下载或每一回购物都产生出有价值的信息。企业越来越依赖于使用Hadoop从迅猛增长的数据中发掘潜藏的价值,促进企业利润的增长。仅仅Orbitz这家旅游网站每月就有460万人次的访问量,社交网站Facebook的用户数量从4亿变为5亿只用了不到半年的时间,而社交游戏网站Zynga近来供应了750万份虚拟情人节蛋糕。这些公司有一个共同点:依靠Hadoop处理海量数据从而推动业务的发展。

Hadoop可不是只能分析点击流,诸如传感器输出数据、视频、日志文件、位置数据、基因信息、行为甚至地震分析等数据,这些只是在各种政府机关及各个层次企业中Hadoop所能够大显身手的一小部分数据源而已。不过Hadoop并不完美,用过Hadoop的人就会明白Hadoop所面临的挑战及其不足之处。目前市面上虽有6种不同的Hadoop发行版可供选择,然而这些发行版不但配置方案一样,而且都存在单点故障、数据丢失的风险及性能瓶颈这样的缺陷。

我们为您带来一个更好的新选择——Apache Hadoop的MapR发行版——最简单、最可靠、最快速的Hadoop发行版。

战略性的Hadoop

在您的组织对Hadoop发行版进行评估和选择时,应该紧密结合自身实际情况来确定评价标准。与发行版有关的重要问题包括:

易用性如何?

  • 能够多大程度上方便地在集群中移动数据?

  • 集群能否被用户、工作任务和不同地理分布所便捷地共享?

  • 集群是否既能处理大量文件,也可以使拥护轻松应对访问、保护和安全问题?

可靠性如何?

  • 对于生产和商务的关键性数据它能否胜任?

  • 怎样对业务的持续性给予支持?

  • 集群能否用从用户或程序错误中恢复数据?

  • 能否对不同集群间的数据进行镜像?

性能如何?

  • 处理能力是否受到批处理应用程序的限制?

  • 管理节点是否会成为性能瓶颈?

  • 系统能否充分利用硬件资源?

MapR所提出的创新方案将使更多企业可以更好地利用大数据分析的能力,本发行版的诸多新特点令Hadoop更易使用、更可信赖并使其性能得以显著提升,从而极大地拓展了Hadoop的应用和适用范围。

完整、先进、拥有强力支持的Hadoop发行版

大量社区开发者已经作出了杰出的贡献,在此基础上MapR又进行了创新。这些新的重要技术进步,使得MapR将Hadoop打造成为一个处理实时数据流的可信交互系统。

MapR对Apache Hadoop API的兼容性达到100%,如兼容MapReduce、HDFS和HBase的所有API。集MapR公司与社区精英的才智于一体且已打有最新补丁,MapR完整发行版不仅经过全面测试还具有MapR公司的支持。如图1所示,MapR提供完整的Hadoop组件体系,包括:

  • 语言处理组件(Hive和Pig)

  • 数据库组件(HBase)

  • 工作流管理库(Oozie)

  • 应用程序创建库(Mahout)

  • Hadoop数据库SQL输入/输出转接器(Sqoop)

  • 日志采集系统(Flume)

  • 完整的MapReduce层

  • 底层存储服务功能

MapR突破了其他Hadoop发行版的限制,无论一个还是几万个节点,MapR都能够轻松应对其上PB级的数据量。

图1 MapR发行版与Apache Hadoop达到100%兼容,并新增了多种提高易用性、可靠性和性能的创新之处

易用的Hadoop

为了让更多的用户容易地使用,也为了承载更大的任务量,Hadoop必须能让用户简单地使用、部署、运营和管理。MapR公司致力取得关键性技术突破,这些突破使得在集群中转移数据、扩展集群资源及管理大型Hadoop集群这样的任务不但变得更加容易,而且仅需很少的人力便可完成。


从批处理转向实时数据流

其他发行版采用了较为繁琐的批处理方式来管理数据,从而导致数据处理速度的降低。应用程序首先将数据转运到本地或附加的网络存储中。按照预先设定的时间间隔,数据被分批载入传统Apache Hadoop的一次性写入式文件系统中。最后,分析生成结果并将这些结果分批卸载以待进一步的分析。

标准的批处理方式使得在应用程序数据生成与Hadoop集群数据分析之间形成明显时滞。即使通过提高数据加载频率这样的手段可以最大程度地缩小这个时滞,却同时产生了数量众多的小文件,如此之多的小文件对于传统Hadoop扩展性的极限形成了巨大的挑战。此外,其他的Hadoop发行版也受到Hadoop分布式文件系统(HDFS)的限制,类似于常见的CD-ROM,HDFS也是一次性写入的文件系统,不仅不能够对已写入文件进行修改,也不允许对未关闭的文件进行读取。

与这些Hadoop发行版截然相反,MapR基于行业标准的网络文件系统(Network File System,NFS)协议,使用NFS直接存取技术对数据流进行实时读/写。利用该项技术,不但任一远程客户端都可方便地挂载集群文件系统,各个应用服务器还能够将日志或其他数据直接写入集群,而不必将数据先导入本地或网络存储之中。在MapR的无锁存储服务技术的支持下,MapR直接存取NFS技术让用户可以更快更经济地使用Hadoop:

有别与传统Hadoop一次性写入式的文件系统,MapR允许根据用户需要对文件进行修改、覆盖或读取。MapR无锁存储服务技术支持对任意文件进行多个并发的读/写操作。

用户可以使用图形化的文件浏览器访问和操作集群中的数据。使用文件浏览器,用户可以仅仅是浏览文件,也可以点击鼠标来自动打开有关应用程序,还可以拖拽文件或目录而使其移入或移出集群。

可以使用文本编辑器或集成开发环境(Integrated Development Environments,IDEs)直接编辑集群中的文件。

在MapR中,用户可以直接使用标准的命令行工具、UNIX应用程序及其他工具(如Grep、Sed、Tar、Sort和Tail)来处理集群中的数据。对其他Hadoop发行版而言,用户不是需要再进行开发,就是为了使用标准化工具而把数据从集群中拷贝出来。

如Flume之类的日志采集工具经常需要在每台应用服务器上额外运行代理程序,而MapR大大降低了对日志采集工具的依赖。MapR既允许应用服务器直接向集群中写入数据,也允许使用Rsync这样的标准化工具在本地磁盘和集群间同步数据。

应用程序的二进制代码、库及配置文件可以在直接在集群内部存储和访问,并且操作十分简单。


内建数据压缩机制

虽然一般的Hadoop发行版也可以对数据进行压缩,但实现起来既困难又低效。所以通常的做法是,先手工将数据进行压缩再将其拷入集群,而后执行指定的MapReduce任务对压缩的数据进行索引(假设应用程序需要采用并行处理)。为了达到压缩指标,还需要修改应用程序。

MapR的自动压缩功能在提升了性能的同时又能够对重要的存储进行备份。所以说,MapR压缩方案节省了网络I/O带宽和存储空间的占用。


多集群支持

不论是为了分发不同数据或应用程序,还是为了业务的持续性,亦或是出于性能考虑,企业都经常需要操作多个Hadoop集群。MapR内在的设计使其可以支持多集群作业、直接存取、远程镜像和多集群管理。


  • 直接存取。所有的MapR Hadoop集群都可以让用户简单地在集群内外直接存取数据。假设一家组织拥有“dev”和“test”两个集群,人们可以在/mapr/dev目录下使用dev集群中的文件,也可以在/mapr/test目录下访问test集群中的文件。不管使用Hadoop集群直接访问(hadoop fs -ls /mapr/dev/user/jdoe)还是通过远程NFS方式(ls /mapr/dev/user/jdoe),访问路径都是相同的。除此之外,用户可以通过执行一个简单的命令(cp /mapr/dev/foo.txt /mapr/test/)就能够在不同集群之间拷贝文件,而且配置不同集群间的符号链接也是很容易的事情。

  • 远程镜像。利用MapR镜像工具,用户可以很轻松地配置MapR来为不同集群的数据做镜像。MapR的这个功能不仅能够用于支撑持续性业务(为另一个集群做数据镜像),也能用于保障生产或研究中各个集群间的同步。

  • 多集群管理。使用MapR控制系统(MCS),用户可以看到所有正在运行的MapR集群,也能够轻松地查看和切换可用集群。

筹划、搭建和管理集群

正如数据分析需求的不断增长一样,人们对昂贵的集群资源进行有效管理和利用的需求也在不断增长。不论是定位或存取数据,还是对数据施用策略,都对大规模数据的有效管理提出了一个巨大的挑战。集群的架构必须能够支撑应用程序、用户、部门和管理者对海量文件管理的需求。集群的应用和数据必须既能满足技术需求,又得兼顾企业利益。

企业级的应用方案,通常需要对下述问题进行考察:

  • 需要怎样的CPU处理能力?(现在和将来)

  • 需要怎样的存储能力?(现在和将来)

  • 应用程序是否具有高I/O存储需求?

  • 具有哪些的数据保护需求?

  • 具有哪些业务持续性需求?

  • 需要采用何种安全授权和存取控制的手段?

在MapReduce的环境下,上述问题则对Hadoop发行版全面性和灵活性提出了更高的要求。其他Hadoop发行版都是在文件层面上进行策略(如所有者、复制等)管理,事实上它无法处理可能面对的数以百万计的文件。MapR是企业级发行版,具有先进的数据管理功能,正如文章标题中所称,MapR可以让企业简单、容易而又经济地实现业务层次的各项目标。

MapR的卷

MapR的卷让用户便捷地存取和管理集群中的数据。为了容易被组织、管理和确保安全,MapR采用树状结构把相关的文件和目录都分类汇集起来形成卷。MapR的卷具有如下功能:

  1. 复制。复制参数决定了整个集群中数据副本的数量。

  2. 快照。不必费时费力地复制数据,MapR的快照功能就能够在线实时恢复数据。

  3. 镜像。MapR的镜像具有负载均衡、跨集群备份、大容量数据迁移以及为确保业务持续性的失效备援的功能。本地镜像可高效、频繁存取数据,而远程镜像则负责保障业务的连续性并在企业原有系统和私有云间进行集成。

  4. 配额。通过限制任何用户、用户组和卷的磁盘空间,或是为特定的用户和用户组分配一个卷,企业可以使用配额来对应用程序、用户或部门的需求进行精确的管理。MapR拥有集群内部的存储配额管理能力,配额既可配置用于一个单独的卷,也可以用于一个用户或用户组。一旦配额即将溢出,系统会自动发送电子邮件进行提醒。用户和用户组可以来自本地系统,也可以来自如NIS或LDAP这样的标准名称服务器。

  5. 数据位置控制。MapR允许根据需求把数据保存在集群内指定的位置上。比如,可以将那些具有频繁I/O请求的应用程序数据放置到SSD这类的高速设备中,而其他数据则存放在标准磁盘设备上。

  6. 管理权限。集群管理员有时需要对其他用户进行授权,这时可授予管理权限有:允许特定用户创建和删除卷、运行镜像和快照、设定配额等。

  7. 数据存取。用户可在卷级别对数据进行存取。MapR集成了标准的目录服务,如LDAP或NIS。


轻松的规模化管理

管理大规模的Hadoop集群,可视化和自动化非常必要。管理员的确没有时间对服务器进行逐一排障和管理。在高级的数据管理和自我恢复功能帮助下,仅需一个管理员就能轻松管理上千个节点的MapR集群。

MapR的下述特点令管理变得更加容易:

  1. 具有经过测试、功能完善的Hadoop堆栈,预先集成了丰富的组件,如Hive、Pig、Oozie等等。

  2. 安装简单

  3. 拥有完善的管理工具,如GUI、CLI及REST APIs

  4. 系统更新及撤销回滚无需暂停业务

MapR控制系统(MCS)对集群的资源和对集群的操作实现完全可视化。如图2所示,通过集群拓扑的组织(例如数据中心和机架),MCS所包含的MapR Hadoop Heatmap工具被设计用于对上千的节点进行管理,它能够以可视化的形式展现节点的健康情况、服务状态和资源使用状况。若要了解整个集群的健康情况,MapR Hadoop Heatmap让您一看便知。对于数量众多的节点、文件和卷,用户可以利用过滤器直接选取指定的部分,也可以使用群管理器直接运行管理动作。

一文读懂MapR Apache Hadoop的MapR发行版白皮书

图2 MapR Hadoop Heatmap令每个集群中
所有节点的状态一目了然

可靠的Hadoop

可靠性对于业务的持续运营至关重要,企业对系统的可靠性、可用性和存储能力都有着较高要求——对于生产性数据尤其如此。与其他发行版不同,MapR采用了完全分布式的架构来满足企业级集群运行需求,并提供可信的数据存储以确保在共享环境下数据依旧安全:


  1. 高可用性。MapR的每一部分不但都是事务性和日志性的,而且仅需数秒便可重启。整个集群可以自行恢复与调整。公司重写了作业调度器和管理节点,使其变为分布式并可被复制。NFS的高可用性意味着客户机不必挂起等待无效服务器。滚动式的更新方式确保集群一直处于可用状态。

  2. 数据保护。不同于一般的发行版,MapR不存在单点故障问题,集群中的元数据具有三份副本。从客户机内存到集群中的磁盘,MapR全程监控着静默数据损坏问题并进行端到端的校验。MapR快照工具具有实时恢复镜像的功能,而MapR镜像工具则通过使用远程或本地镜像对数据进行保护以保证业务的连续进行。

  3. 灾难恢复。远程镜像可以对远端站点中的集群数据进行同步备份,即使遇到灾害企业依旧能够持续运营。使用MapR控制系统可以轻松管理大量地理集中或分散的集群。

  4. 安全、共享的环境。MapR保护系统资源不受失控作业的影响,保证所有应用都能够从核心集群里获取资源。而在其他发行版中,用户作业中的Bug(如无限循环)则会影响到重要的系统守护进程。

  5. 监控。MapR自带的过滤器通知和警告功能不仅支持许多层面,包括集群范围、预定的服务、预先配置的卷、任一用户或用户组以及任何一个节点,还支持群发电子邮件。使用率追踪和配额功能能够帮助管理员有效跟踪资源并了解负荷程度。当然,用户也可以集成并使用第三方的监控系统。

避免作业丢失

Hadoop利用作业调度器(JobTracker)跟踪遍布集群不计其数的Mapper和Reduce任务。不幸的是其他发行版中的作业调度器仅在一个节点上运行,使得整个集群存在单点故障的可能性。一旦作业调度器失效,所有正在运行的作业都将失效,而且所有进程也将丢失。此外,管理员首先还必须首先能够探查到问题的根源,然后手动重启作业调度器使集群重新恢复正常。

MapR拥有高可用的作业调度器,它在缩减恢复时间的同时还支持集群自我恢复。若是某个作业调度器失效,任务控制器将自动暂停,此时集群中会有另一个节点上的MapR作业调度器自动启动,任务管理器将等待直至重新连接到新启动的作业控制器。整个过程中所有正在运行的作业或任务都将继续运行,而不会出现作业失效或丢失进程的现象。

用于大规模并具有高可用性的分布式管理节点

在Hadoop中,管理节点追踪并记录集群中数据的所在位置。其他发行版里,即使是规模很大的集群,仍然使用单台服务器来运行管理节点,这会产生很多问题。MapR采用分布式管理节点而解决了这些问题。

  1. 没有单点故障。单一管理节点可以引发单点故障,如果节点宕掉,整个集群都无法使用,只有再花费数分钟甚至数小时的时间重启管理节点才能让集群重新运行起来。在MapR中,集群的所有节点都能够存储和处理元数据,故而即使在多磁盘或节点失效的情况下也不会有丢失或停工的发生。

  2. 没有文件数量限制。即使是运行在性能超强服务器上,其他发行版的管理节点最多也只能处理7000万份的文件量。实际上为了试图解决这个问题,许多大型Hadoop站点需要在集群中进行遍历来搜寻和登记文件的,这种做法不但占用大量日常作业任务还浪费了资源和金钱。而MapR的分布式管理节点数量与节点总数保持线型增长,对文件数量没有任何限制。

  3. 具有性能优势。别的Hadoop发行版由于集群内的所有元数据操作(如查询、创建)必须通过单一的管理节点才能实现,使得系统性能受到制约。这一问题既影响了系统性能,又限制了集群所能处理的工作量。然而,MapR集群任一节点都能够存储和处理元数据,意味着规模更大的集群将获得更高的性能。


Hadoop高可用性及直接挂载NFS


使用快照方便地恢复数据

由于每天都要收集并处理海量的数据,因此对如此之多的数据原封不动地备份通常都是不现实的。与此同时,一旦遇到应用程序崩溃或操作失误,企业要求系统必须可以还原特定时间点上的数据。数据副本是其他Hadoop发行版提供的唯一数据保护手段,然而遗憾的是,数据副本只能在磁盘和节点失效的情况起作用,却无法应对整个集群处处都可能发生的用户或应用程序出现的错误。许多Hadoop用户正是由于这些错误才导致其重要数据的丢失。

MapR的快照功能允许组织自行创建还原点对象,通过提供时间点还原镜像来保护系统免受用户或程序的错误之苦。MapR快照由MapR控制系统进行管理并对MapR卷进行操作,它可以被设定成定期计划任务也可以根据需要来随时执行。对某个快照进行恢复就如同浏览快照目录或是把目录或文件拷入当前目录中一样简单。用户可以为个别的卷单独建立快照,也可以为不同的卷设定不同的快照任务计划。

MapR同样支持制订复杂的任务计划。例如,“重要”数据的快照计划可能包括:

一天24小时,每小时进行一次快照。

一周7天,每天中午12点整进行一次快照。

每周周日中午12点整进行一次快照,持续12周。

MapR快照具备高性能和低磁盘占用等优势:

  • 速度极快。创建一份快照无需对数据进行拷贝,也就是说PB级别的一份快照在几秒钟内即可完成。

  • 原子操作。快照操作都是原子性的,它具有完整的连续性。

  • 不影响写性能。快照操作对写入操作性能没有任何影响。MapR使用的是直写操作,即系统中的每次写动作都将写入至磁盘的一个新块,直接写入操作比复制写入操作效率更高。

  • 最小化存储占用。如果文件不被修改或删除,快照将不会占用任何磁盘空间。所有未作改动的数据块都同时被快照和卷内的即时读/写镜像所共用。因此,MapR的快照技术能够最低限度地占用磁盘空间,在目标数据块写入性能零损失的基础上还可以提供速度极快的分布式快照。

镜像

很多企业都需要对他们的数据创建时间点的物理备份,MapR的镜像功能能够满足企业的这一需求。MapR镜像有两种明显不同的使用形式:远程镜像(正如本小节所描述)应用于集群间的灾难恢复、研发与测试或是共有云与私有云的集成,本地镜像(参见性能小节)则用于同一集群内的负载均衡或性能增强。远程镜像能够支持众多的用例。

  1. 灾难恢复(Disaster recovery,DR)。组织可以应用远程镜像部署容灾性的另一个集群。该集群一般安置于其他数据中心或地区,一旦发生数据丢失便可利用容灾集群进行数据恢复,而且即便主集群受到灾害影响,所有的应用程序都可以切换至容灾集群上。

  2. 研究性集群。组织可以使用MapR轻松地部署一个与生产集群并行的研究性或测试性集群。管理员能够十分轻松地在研究性集群中创建卷的镜像,系统也会定期把生产环境中的数据镜像做到研究性集群之中。这一功能使用户可以在研究性集群的环境中处理真实的、最新的数据。

  3. 公有云与私有云的集成由于绝大多数的组织都选择在自己的硬件平台上运行Hadoop,有的组织感到有时很有必要使用其他公有云集群(如Amazon EC2)来获取额外的计算能力。例如,某个组织决定在每周五晚都将使用EC2上的100个节点来满足特定的处理需求。MapR能够既简单又轻松地同步公有云集群与本地集群中的数据。

  4. 高效。MapR的镜像不同于其他发行版,因为镜像中仅对数据源的改动进行记存。例如,假设某一文件中仅有一个8KB的数据块被修改,在下一个镜像中也只有这个小块而非整个文件将被传送,这些数据在网络中传输时还要经过压缩并使用校验来确保数据的完整性。如果需要使用同一个卷的多个镜像,镜像可以被分层传送以减少对传输带宽的占用。存储原始卷的服务器对数据进行异步传输和并行处理,这并不会影响本地系统的性能。

  5. 在线传送或者线下储运。如果数据量过于巨大以致不适用网络进行传输,可以把镜像保存到数据源所在地的一个或更多可移动的磁盘或服务器中,随后将其物理地运送至目的地再进行装载(于是也被称为“步行网”)。网络和步行网的镜像可以相互操作。比如,可以在原集群中创建一份相当大的镜像,随后将其运输至很远的目的地,接着原集群便可从远程集群大量加载并同步数据。

  6. 原子操作。MapR的镜像功能基于MapR快照,具备原生的原子操作。当一个镜像操作所需的所有数据都被目标集群接收后,目标集群才会改变,也就意味着目标集群的更新也是原子性的。用户可以使用GUI、CLI或REST API工具来配置和监控镜像之间的关联。类似于快照任务计划,镜像任务计划也可以在卷层面上进行设置。

更快的Hadoop

MapR最初就被设计为一款具有十分突出的I/O和性能优势的Hadoop发行版。不论集群规模是大还是小、拥有一个还是上千节点,MapR都能提高集群的性能。

高性能架构

从一开始,为了提升性能MapR公司就已经进行了重新设计,打造出的MapR发行版具有多方面的架构特色,包括:

  1. MapR无锁存储服务。MapR无锁存储服务加速了MapReduce的性能外还提供多维度的扩展性能。首先,在实际运行中为了避免锁定冲突,使用数据路由表而非互斥锁或自旋锁。其次,有许多用户应用程序分布在不同的节点中,为了维护执行这些程序所需的资源,弃用线程而采用了状态机。再有,MapR无锁存储服务不是通过HDFS或Linux文件系统层而是直接对块设备进行写入。

  2. 乐观性Shuffle。MapR的Shuffle过程利用了MapR无锁存储服务的特点来对Mapper和Reducer的任务进行排列。于是当Reducer读取Mapper输出时数据都是从磁盘(也可能是跨磁盘间)连续读出的,这种做法具有相当强的性能。乐观性的MapR Shuffle并不使用Linux页面缓存,从而避免了与用户应用程序抢占宝贵的内存资源。于是,MapR的Shuffle过程比其他发行版要快三倍。

  3. 分布式管理节点。由于其他Hadoop发行版依靠唯一的管理节点来管理整个集群的元数据操作。相反地,MapR的管理节点是分布式的,它的元数据操作遍布整个集群,因而具有更高级别的可伸缩性。

  4. 内建压缩机制。MapR对数据进行压缩以节省磁盘和网络I/O,整个过程完全透明。

  5. 开发语言。MapR底层是用C/C++进行编写的。除了能够获得更高的效率和性能外,选择这种语言进行开发还能克服其他发行版都头疼的垃圾收集问题。

  6. 多网卡支持。如今绝大部分服务器上都配备至少两块网卡(Network Interface Controllers,NICs)。MapR通过绑定网卡可以在每一个节点上使用多个网卡而无需在交换层绑定端口。在网络上的其他机器看来,MapR集群中的任何两块对等网卡只有一个端口是开放的。

  7. 最小化CPU或存储空间占用。在集群中MapReduce应用程序运行在相同的节点上并将其视为文件服务器,MapR从基础架构本身着手来最大程度地降低CPU和存储空间占用,从而确保能有充足的CPU、内存和其他资源来运行用户应用程序。此外,所有的MapR服务都作为用户空间进程执行——既提升了性能又不影响系统稳定。

性能特色

不仅仅是先进的架构,MapR的数据位置控制和本地镜像功能还可以让用户对Hadoop应用进行定制,进而使性能得到再次提升。

  1. 数据位置控制。MapR可以对数据位置进行控制,而其他发行版却无法控制集群内数据的物理存储位置。面对全部可用节点,数据位置控制可用于对卷设定访问策略使其仅对某一部分节点开放,也可以将某个卷单独绑定到指定机架或数据中心上,亦或是绑定到某些特定硬件配置的机器上。例如,一个需要对会话查询表进行随机和高频访问的应用程序,就可以将查询表所在的MapR的卷专门绑定到那些装配SSD硬盘驱动器的集群节点上,这将使集群性能获得极大的提升。

  2. 本地镜像及镜像卷。MapReduce会产生访问相同数据的大量进程。如果使用传统Hadoop技术,对一个文件系统元素的大量并发访问很快就会导致文件服务器的崩溃而使得整体性能下降,特别是在启动新作业时表现的更为明显。MapR中的用户可以使用本地镜像(又称为镜像卷)来创建卷的多个副本。这些副本都采用相同的路径进行访问并可同步更新,系统还能够自动地在这些副本中对读请求进行负载均衡处理。

性能测试

公司已经对MapR发行版进行了多项测试,比如流式I/O、随机I/O及MapReduce性能等,并与其他Apache Hadoop发行版进行比较来评估MapR的性能。结果参见后续小节。

流式I/O性能

作为Hadoop领域内的第一个I/O性能测试基准,DFSIO基准成为了衡量流式I/O性能的有用工具。通过运行一项多mappers和单reducer的MapReduce作业,重点考察mapper平均的转换率(用MB/s表示)。在本测试中,MapR工程师使用10个节点的集群进行测试。如图3所示。

一文读懂MapR Apache Hadoop的MapR发行版白皮书

图3 DFSIO测试(数值越大越好)显示MapR比其他发行版快三倍

系统采用10节点集群进行测试,每个节点的主要硬件配置是:两颗四核处理器、24GB内存和12块1TB 7200转SATA硬盘驱动器。正如在图中所示,MapR中的I/O几乎达到硬件设备的物理极限。CPU在测试中基本上处于闲置状态,说明了数据通道是高效的。测试中的写入速度由于校验而稍微有些偏低。

随机I/O性能

有些应用程序需要创建和访问数量众多的文件。为了对这方面性能进行评估,MapR工程师基于NNBench对比测试了MapR和其他发行版的效果,本测试是通过重复如下步骤来进行的:

  • 新建一个文件

  • 向文件中写入100字节

  • 关闭文件

程序运行在10个相同节点的集群上,每个节点同时部署了传统Apache Hadoop发行版和MapR发行版。为了完成测试关闭了传统发行版中的块报告功能。测试的结果如图4所示。

一文读懂MapR Apache Hadoop的MapR发行版白皮书

图4 MapR在随机I/O测试中完胜传统发行版

MapR不论是在速度上(纵轴)还是在容量上(横轴)都获得十分出色的结果。实际上,由于差距如此之大以至于传统发行版的结果必须经过放大才能看到。即便关闭了块报告功能,传统发行版最多只能写入150万份文件随后曲线便陡然下降。与此不同,MapR完成9000万份文件写入任务时,速度才从12000份/秒降低到4000份/秒。结果说明MapR的扩展能力是普通发行版的60倍。

MapReduce性能

除了I/O,工程师也想对MapR的数据分析性能进行评估。采用Terasort测试,测验平台仍然是10节点集群进行测试,每个节点的硬件都含有两颗四核处理器、24GB内存和12块1TB 7200转SATA硬盘驱动器。Benchmark测试的结果如图5所示。

一文读懂MapR Apache Hadoop的MapR发行版白皮书

图5 在Terasort测试中(越小越好)MapR的性能几乎领先传统发行版近3倍

一文读懂MapR Apache Hadoop的MapR发行版白皮书

MapR及其他发行版的扩展性比较

结论

MapR相信不断加深的数据处理危机需要战略性地重视Hadoop平台的选择。虽然已经有许多发行版可以拿来使用,但只有与众不同的MapR发行版才突破了其他发行版的各种不足和限制(如表2所示)。MapR具有其他发行版根本不具备的独特特色和功能,包括:

  • 简易的安装、部署和管理集群,全程可视化,操作简便

  • 企业级的存储访问和存储管理,企业级的可靠性

  • 由于性能的突破,可以通过显著降低硬件需求从而控制成本

MapR的努力和创新让Hadoop变得更加简单、可靠和快速,使其能够满足现今绝大多数应用的需要,而且我们也做好了迎接未来挑战的准备。

MapR及其他发行版的扩展性比较

MapR技术公司打造出了业内最快、最为可靠、也最易用的Aapche Hadoop发行版。本公司致力于推进Hadoop平台及其生态系统,使更多企业能够利用大数据分析的威力获得竞争优势。您可以访问公司网站www.mapr.com来获取更多信息。

译者:五岳之巅(刘凯)

End.



清华大数据产业联合会的微信公众平台,旨在传播数据科学理念,分享数据运营心得,扩展数据应用空间,捕捉数据产业商机。定期发布线下活动预告,独家发布讲座素材,清华大数据产业联合会活动报名唯一渠道。




以上是关于如何在Windows下面运行hadoop的MapReduce程序的主要内容,如果未能解决你的问题,请参考以下文章

如何在Windows下面运行hadoop的MapReduce程序

如何在Windows下面运行hadoop的MapReduce程序

一文读懂MapR Apache Hadoop的MapR发行版白皮书

Impala 有自己的执行引擎还是在 Hadoop 生态系统中的 MapR 上工作?

Hadoop再凉凉,MapR终被HPE收购

如何获取hadoop mapreduce job运行信息