hadoop入门
Posted 数据与共享
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop入门相关的知识,希望对你有一定的参考价值。
“图片中展示的就是Hadoop家族中一些常见的成员,它们好多都是基于hadoop的,所以在学习其他大数据技术框架之前,先了解一下hadoop的基本原理是非常有必要的。”
1.Hadoop是什么?
hadoop是分布式系统基础架构,可以为海量数据提供存储和计算。其有三大组件:hdfs负责海量数据的存储;MapReduce负责计算;另外有yarn负责运算时的资源调度。
2.什么是分布式系统?
一个任务的运行基于多台服务器的协同合作,有多个互连的CPU协同工作的系统。
3.MapReduce执行过程
MR是一个分布式计算模型,其主要分两个阶段。map阶段、reduce阶段,在map和reduce中间有一个中间阶段:shuffle阶段,不过shuffle有系统完成,开发时我们只需要实现map()和reduce()即可。
4.hdfs存储
管理网络中跨多台计算机存储的文件系统称为分布式文件系,该系统架构于网络之上。(DistributedFilesystem)。
5.yarn平台
YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处
6.大数据相关技术
7.大数据技术分类
从数据的采集、传输、加工、存储以及最后的应用,需要不同框架的支撑。
8.说明
本章内容纯属对hadoop以及其生态圈的介绍性文章。后续文章会对hdfs、MR、还有yarn做进一步的介绍。
以上是关于hadoop入门的主要内容,如果未能解决你的问题,请参考以下文章