初识Hadoop

Posted 一杯敬朝阳一杯敬月光

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了初识Hadoop相关的知识,希望对你有一定的参考价值。

目录

Hadoop 概述

Hadoop核心组件之HDFS概述

Hadoop核心组件之MapReduce

Hadoop核心组件之YARN

Hadoop优势

Hadoop发展史

Hadoop生态圈

Hadoop发行版选型


 

Hadoop 概述

Nutch、Hadoop创始人: Doug Cutting

Hadoop名字的由来:Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名

Hadoop和HIve等都是Apache社区的顶级项目,其顶级项目网址:xxx.apache.org

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.(Hadoop是可靠的、可扩展的、分布式计算的开源软件)

Hadoop

  • 提供分布式的存储(一个文件被拆分成很多块,且以副本的方式存在在很多个节点中)和计算
  • 是一个分布式的系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用
  • 分布式文件系统:HDFS(Hadoop Distributed File System),实现将文件分布式存储在很多服务器上
  • 分布式计算框架:MapReduce,实现在很多机器上分布式并行计算
  • 分布式资源调度框架:YARN,实现集群资源管理以及作业的调度

Hadoop核心组件之HDFS概述

  • 源自于Google的GFS论文,论文发表于2003年10月
  • HDFS是GFS的克隆版
  • HDFS特点:扩展性、容错性、海量数据存储
  • 将文件切分成指定大小的数据块并以多副本方式存储在多个机器上
  • 数据切分、多副本、容错等操作对用户是透明的

举个🌰 :文件、块、副本

    文件:test.log    200M

    块(block):默认的blocksize是128M,2个块 = 1个128M + 1个72M

    副本:HDFS默认3副本,例如node1挂掉了,blk1和blk2还能从2、3、5中拿到

    node1:  blk1        blk2

    node2:  blk2

    node3:  blk1       blk2

    node4:

    node5:  blk1

part-0:分成了两块blk1+blk3,有两个副本;part-1:分成了三块blk2+blk4+blk5,有三个副本

Hadoop核心组件之MapReduce

  • 源自Google的MapReduce论文,论文发表于2004年12月
  • MapReduce是Google MapReduce的克隆版
  • MapReduce的特点:扩展性、容错性、海量数据离线处理

wordcount的示意图

Hadoop核心组件之YARN

  • YARN:Yet Another Resource Negotiator
  • 负责整个集群资源的管理和调度
  • YARN特点:扩展性、容错性、多框架资源统一调度

Hadoop优势

  • 高可靠性
    • 数据存储:数据块多副本
    • 数据计算:重新调度作业计算
  • 扩展性
    • 存储/计算资源不够时,可以横向的线性扩展机器
    • 一个集群中可以包括数以千计的节点
  • 其他
    • 存储在廉价机器上,降低成本【去IoE】
    • 成熟的 生态圈

Hadoop发展史

Hadoop生态圈

狭义Hadoop VS 广义Hadoop

狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)平台

广义Hadoop:指的是Hadoop生态系统,Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础饿一个部分;生态系统中的每一个子系统只解决某一个特定的问题域(甚至可能很窄),不搞统一型的一个全能系统,而是小而精的多个系统

Hadoop生态系统的特点

  • 开源、社区活跃
  • 囊括了大数据处理的方方面面
  • 成熟的生态圈

Hadoop发行版选型

常用的Hadoop发行版

  • Apache
    • 优点:纯开源
    • 缺点:不同版本/不同框架之间整合 jar冲突
  • CDH:https://www.cloudera.com,市场占有:60%-70%
    • 优点:cm(cloudera manager)通过页面一键安装各种框架、升级方便,底层支持impala
    • 缺点:cm不开源、与社区版本有些许出入
  • Hortonworks:HDP,企业发布自己的数据平台可以直接基于页面框架进行改造
    • 优点:原装Hadoop、纯开源,底层支持tez
    • 缺点:企业级安全框架不开源
  • MapR

 

参考:慕课网-Hadoop 系统入门+核心精讲

以上是关于初识Hadoop的主要内容,如果未能解决你的问题,请参考以下文章

hadoophadoop配置

HadoopHadoop mr wordcount基础

HadoopHadoop2.8编译

HadoopHadoop MR 自定义排序

HadoopHadoop概述

hadoophadoop 安装 kerberos