技术适合大数据的分布式存储与计算平台—Hadoop
Posted 云创大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了技术适合大数据的分布式存储与计算平台—Hadoop相关的知识,希望对你有一定的参考价值。
1.Hadoop简介
1.1Hadoop系统生态图
1.2Hadoop是什么?
适合大数据的分布式存储与计算平台!
1.3Hadoop版本:
(1)Apache
官方版本(1.1.2)
(2)Cloudera
使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些patch。推荐使用。
(3)Yahoo
Yahoo内部使用的版本,发布过两次,已有的版本都放到了Apache上,后续不在继续发布,而是集中在Apache的版本上。
1.4Hadoop核心项目
(1)HDFS:Hadoop Distributed File System,分布式文件系统
主从结构:主节点,只有一个:namenode;从节点,有很多个:datanodes;
Namenode负责:接收用户操作请求、维护文件系统的目录结构以及管理文件与block之间的关系、block与datanode之间的关系;
Datanode负责:存储文件,而文件被分成block存储在磁盘上,为了保证数据的安全,文件又会有多个副本!
(2)MapReduce:并行计算框架
主从结构:主节点,只有一个:JobTracker,从节点也有很多个:TaskTrackers;
JobTracker负责:接收用户提交的计算任务、把计算任务分给TaskTrackers执行以及监控TaskTracker的执行情况;
TaskTracker负责:执行JobTracker分配的计算任务。
1.5Hadoop特点
(1)扩容能力(Scalable):
能可靠地(reliably)存储和处理千兆字节(PB)数据。
(2)成本低(Economical):
可以通过普通机器组成的服务器群来分发以及处理数据,这些服务器群总计科大数千个节点。
(3)高效率(Efficient):
通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这样就使得处理非常的快速。
(4)可靠性(Reliable):
Hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。
1.6Hadoop集群的物理分布以及单节点物理结构
(1)Hadoop集群的物理分布
(2)单节点物理结构
以上是关于技术适合大数据的分布式存储与计算平台—Hadoop的主要内容,如果未能解决你的问题,请参考以下文章