初识Hadoop
Posted 一杯敬朝阳一杯敬月光
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了初识Hadoop相关的知识,希望对你有一定的参考价值。
目录
Hadoop 概述
Nutch、Hadoop创始人: Doug Cutting
Hadoop名字的由来:Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名
Hadoop和HIve等都是Apache社区的顶级项目,其顶级项目网址:xxx.apache.org
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.(Hadoop是可靠的、可扩展的、分布式计算的开源软件)
Hadoop
- 提供分布式的存储(一个文件被拆分成很多块,且以副本的方式存在在很多个节点中)和计算
- 是一个分布式的系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用
- 分布式文件系统:HDFS(Hadoop Distributed File System),实现将文件分布式存储在很多服务器上
- 分布式计算框架:MapReduce,实现在很多机器上分布式并行计算
- 分布式资源调度框架:YARN,实现集群资源管理以及作业的调度
Hadoop核心组件之HDFS概述
- 源自于Google的GFS论文,论文发表于2003年10月
- HDFS是GFS的克隆版
- HDFS特点:扩展性、容错性、海量数据存储
- 将文件切分成指定大小的数据块并以多副本方式存储在多个机器上
- 数据切分、多副本、容错等操作对用户是透明的
举个🌰 :文件、块、副本
文件:test.log 200M
块(block):默认的blocksize是128M,2个块 = 1个128M + 1个72M
副本:HDFS默认3副本,例如node1挂掉了,blk1和blk2还能从2、3、5中拿到
node1: blk1 blk2
node2: blk2
node3: blk1 blk2
node4:
node5: blk1
part-0:分成了两块blk1+blk3,有两个副本;part-1:分成了三块blk2+blk4+blk5,有三个副本
Hadoop核心组件之MapReduce
- 源自Google的MapReduce论文,论文发表于2004年12月
- MapReduce是Google MapReduce的克隆版
- MapReduce的特点:扩展性、容错性、海量数据离线处理
wordcount的示意图
Hadoop核心组件之YARN
- YARN:Yet Another Resource Negotiator
- 负责整个集群资源的管理和调度
- YARN特点:扩展性、容错性、多框架资源统一调度
Hadoop优势
- 高可靠性
- 数据存储:数据块多副本
- 数据计算:重新调度作业计算
- 扩展性
- 存储/计算资源不够时,可以横向的线性扩展机器
- 一个集群中可以包括数以千计的节点
- 其他
- 存储在廉价机器上,降低成本【去IoE】
- 成熟的 生态圈
Hadoop发展史
Hadoop生态圈
狭义Hadoop VS 广义Hadoop
狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)平台
广义Hadoop:指的是Hadoop生态系统,Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础饿一个部分;生态系统中的每一个子系统只解决某一个特定的问题域(甚至可能很窄),不搞统一型的一个全能系统,而是小而精的多个系统。
Hadoop生态系统的特点
- 开源、社区活跃
- 囊括了大数据处理的方方面面
- 成熟的生态圈
Hadoop发行版选型
常用的Hadoop发行版
- Apache
- 优点:纯开源
- 缺点:不同版本/不同框架之间整合 jar冲突
- CDH:https://www.cloudera.com,市场占有:60%-70%
- 优点:cm(cloudera manager)通过页面一键安装各种框架、升级方便,底层支持impala
- 缺点:cm不开源、与社区版本有些许出入
- Hortonworks:HDP,企业发布自己的数据平台可以直接基于页面框架进行改造
- 优点:原装Hadoop、纯开源,底层支持tez
- 缺点:企业级安全框架不开源
- MapR
参考:慕课网-Hadoop 系统入门+核心精讲
以上是关于初识Hadoop的主要内容,如果未能解决你的问题,请参考以下文章