初识Hadoop

Posted 走出自己的未来

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了初识Hadoop相关的知识,希望对你有一定的参考价值。

hadoop概念:

   Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。

核心组件:

   1、Hadoop Common,是Hadoop的基础工具类库,为其他模块提供通用工具

   2、Hadoop Distributed File System(HDFS),分布式文件存储系统,可以存储海量数据

   3、Hadoop YARN,是Hadoop2.0以后版本提供的job调度和分布式资源管理框架

   4、Hadoop MapReduce,基于YARN系统的并行处理大数据集的编程模型,主要思想是分而治之。

   其中,HDFS、YARN、MapReduce是Hadoop中最为核心的组件。

Hadoop相关的项目:

    Ambari:一个基于web的工具,用来供应、管理和监测Apache Hadoop集群,包括支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari 也提供一个可视的仪表盘来查看集群的健康状态(比如热图),并且能够以一种用户友好的方式根据其特点可视化的查看MapReduce、pig和Hive 应用来诊断其性能特征。

      Avro :数据序列化系统。

      Cassandra :可扩展的多主节点数据库,而且没有单节点失败情况。

      Chukwa : 管理大型分布式系统的数据收集系统

      HBase ; 一个可扩展的分布式数据库,支持大表的结构化数据存储

      Hive : 一个提供数据概述和AD组织查询的数据仓库

      Mahout :可扩展大的机器学习和数据挖掘库

      Pig :一个支持并行计算的高级的数据流语言和执行框架

     Spark : 一个快速通用的Hadoop数据的计算引擎。spark 提供一个简单和富有表现力的编程模型并支持多领域应用,包括ETL、机器学习、流处理 和图计算。

       Tez : 一个通用的数据流处理框架,构建在Hadoop YARN上,提供一个有力的灵活的引擎来执行一个任意的DAG任务来处理数据(批处理和交互式两种方式)。Tez 可以被Hive、Pig和其他Hadoop生态系统框架和其他商业软件(如:ETL工具)使用,用来替代Hadoop MapReduce 作为底层的执行引擎。

        ZooKeeper :一个应用于分布式应用的高性能的协调服务。

 

以上是关于初识Hadoop的主要内容,如果未能解决你的问题,请参考以下文章

初识Hadoop

初识REST

初识Hadoop

初识Hadoop

大数据Hadoop——初识Hadoop

《Hadoop基础教程》之初识Hadoop