技术适合大数据的分布式存储与计算平台—Hadoop

Posted 云创大数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了技术适合大数据的分布式存储与计算平台—Hadoop相关的知识,希望对你有一定的参考价值。

1.Hadoop简介

【技术】适合大数据的分布式存储与计算平台—Hadoop

1.1Hadoop系统生态图

【技术】适合大数据的分布式存储与计算平台—Hadoop

【技术】适合大数据的分布式存储与计算平台—Hadoop


1.2Hadoop是什么?


适合大数据的分布式存储与计算平台!


1.3Hadoop版本:


(1)Apache


官方版本(1.1.2)


(2)Cloudera


使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些patch。推荐使用。


(3)Yahoo


Yahoo内部使用的版本,发布过两次,已有的版本都放到了Apache上,后续不在继续发布,而是集中在Apache的版本上。


1.4Hadoop核心项目


(1)HDFS:Hadoop Distributed File System,分布式文件系统


  • 主从结构:主节点,只有一个:namenode;从节点,有很多个:datanodes;


  • Namenode负责:接收用户操作请求、维护文件系统的目录结构以及管理文件与block之间的关系、block与datanode之间的关系;


  • Datanode负责:存储文件,而文件被分成block存储在磁盘上,为了保证数据的安全,文件又会有多个副本!


(2)MapReduce:并行计算框架


  • 主从结构:主节点,只有一个:JobTracker,从节点也有很多个:TaskTrackers;


  • JobTracker负责:接收用户提交的计算任务、把计算任务分给TaskTrackers执行以及监控TaskTracker的执行情况;


  • TaskTracker负责:执行JobTracker分配的计算任务。


1.5Hadoop特点


(1)扩容能力(Scalable):


能可靠地(reliably)存储和处理千兆字节(PB)数据。


(2)成本低(Economical):


可以通过普通机器组成的服务器群来分发以及处理数据,这些服务器群总计科大数千个节点。


(3)高效率(Efficient):


通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这样就使得处理非常的快速。


(4)可靠性(Reliable):


Hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。


1.6Hadoop集群的物理分布以及单节点物理结构


(1)Hadoop集群的物理分布


(2)单节点物理结构


以上是关于技术适合大数据的分布式存储与计算平台—Hadoop的主要内容,如果未能解决你的问题,请参考以下文章

大数据与Hadoop之间是啥关系

Hadoop大数据通用处理平台

基于Hadoop的产品大数据分布式存储优化

Hadoop可以用来做啥

#yyds干货盘点# 大数据技术栈之Hadoop-HDFS

初识Hadoop