初识Hadoop

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了初识Hadoop相关的知识,希望对你有一定的参考价值。

 1,Hadoop的组成
两个核心组成
HDFS: 分布式文件系统,存储海量的数据
MapReduce: 并行处理框架,实现任务分解和调度

2,HDFS
HDFS中的文件被分成块进行存储,默认的块大小为64MB, 块是文件存储处理的逻辑单元
HDFS中有两类节点 NameNode和DataNode

2.1,NameNode是管理节点,存放文件元数据
文件与数据块的映射表
数据块与数据节点的映射表

2.2,DataNode是HDFS的工作节点,存放数据块

技术分享图片


2.3,HDFS中的数据管理与容错
每个数据块3个副本,分布在两个机架内的三个节点
DataNode定期向NameNode发送心跳消息

技术分享图片

二级NameNode定期同步元数据映像文件和修改日志,当NameNode发生故障时,备胎转正

技术分享图片

HDFS读取文件的流程

技术分享图片

HDFS写入文件的流程

技术分享图片

 

 3,MapReduce原理
分而治之,一个大任务分成多个小的子任务(map) 并行执行后,合并结果(reduce)

技术分享图片

 

3.1,MapReduce中的基本概念
JobTracker的角色
作业调度
分配任务,监控任务执行进度
监控TaskTracker的状态
TaskTracker的角色
执行任务
汇报任务状态

技术分享图片

技术分享图片

 

 3.2,MapReduce的容错机制
重复执行(最多重复4次)
推测执行

 



























以上是关于初识Hadoop的主要内容,如果未能解决你的问题,请参考以下文章

hadoophadoop配置

HadoopHadoop mr wordcount基础

HadoopHadoop2.8编译

HadoopHadoop MR 自定义排序

HadoopHadoop概述

hadoophadoop 安装 kerberos