hadoop入门

Posted 数据与共享

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop入门相关的知识,希望对你有一定的参考价值。

图片中展示的就是Hadoop家族中一些常见的成员,它们好多都是基于hadoop的,所以在学习其他大数据技术框架之前,先了解一下hadoop的基本原理是非常有必要的。



1.Hadoop是什么?

hadoop是分布式系统基础架构,可以为海量数据提供存储和计算。其有三大组件:hdfs负责海量数据的存储;MapReduce负责计算;另外有yarn负责运算时的资源调度。

2.什么是分布式系统?

一个任务的运行基于多台服务器的协同合作,有多个互连的CPU协同工作的系统。

3.MapReduce执行过程

MR是一个分布式计算模型,其主要分两个阶段。map阶段、reduce阶段,在map和reduce中间有一个中间阶段:shuffle阶段,不过shuffle有系统完成,开发时我们只需要实现map()和reduce()即可。

4.hdfs存储

管理网络中跨多台计算机存储的文件系统称为分布式文件系,该系统架构于网络之上。(DistributedFilesystem)。

5.yarn平台

YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处

6.大数据相关技术

hadoop入门

7.大数据技术分类 

从数据的采集、传输、加工、存储以及最后的应用,需要不同框架的支撑。

8.说明

本章内容纯属对hadoop以及其生态圈的介绍性文章。后续文章会对hdfs、MR、还有yarn做进一步的介绍。




以上是关于hadoop入门的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop入门学习

Hadoop入门学习

大数据hadoop入门之hadoop家族详解

Hadoop入门

Hadoop入门

第五十九课 Hadoop入门介绍