2.1 Apache HadoopHDFS - Apache Hadoop概述

Posted 2022-04-20 周纠纠

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了2.1 Apache HadoopHDFS - Apache Hadoop概述相关的知识，希望对你有一定的参考价值。

Apache Hadoop概述

狭义上Hadoop指的是Apache软件基金会的一款开源软件。
用java语言实现，开源
允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理
Hadoop核心组件
Hadoop HDFS（分布式文件存储系统）：解决海量数据存储
Hadoop YARN（集群资源管理和任务调度框架）：解决资源任务调度
Hadoop MapReduce（分布式计算框架）：解决海量数据计算
官网
http://hadoop.apache.org/
广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

Hadoop之父：Doug Cutting
Hadoop起源于Apache Lucene子项目：Nutch
Nutch的设计目标是构建一个大型的全网搜索引擎。
遇到瓶颈：如何解决数十亿网页的存储和索引问题
Google三篇论文
《The Google file system》：谷歌分布式文件系统GFS
《MapReduce: Simplified Data Processing on Large Clusters》：谷歌分布式计算框架MapReduce
《Bigtable: A Distributed Storage System for Structured Data》：谷歌结构化数据存储系统

HDFS作为分布式文件存储系统，处在生态圈的底层与核心地位；
YARN作为分布式通用的集群资源管理系统和任务调度平台，支撑各种计算引擎运行，保证了Hadoop地位；
MapReduce作为大数据生态圈第一代分布式计算引擎，由于自身设计的模型所产生的弊端，导致企业一线几乎不再直接使用MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据。

• 狭义上Hadoop指软件，广义上Hadoop指生态圈
• Hadoop之父Doug Cutting
• Hadoop起源于Nutch项目
• 受Google3篇论文启发
• 2008年开源给Apache软件基金会

开源社区版
Apache开源社区发行
也是官方发行版本
优点：更新迭代快
缺点：兼容稳定性不周
商业公司发行
基于Apache开源协议
某些服务需要收费
优点：稳定兼容好
缺点：收费版本更新慢
Apache开源社区版本
http://hadoop.apache.org/
商业发行版本
Cloudera：https://www.cloudera.com/products/open-source/apache-hadoop.html
Hortonworks ：https://www.cloudera.com/products/hdp.html
本课程中使用的是Apache版的Hadoop，版本号为：3.3.0

Hadoop架构变迁（1.0-2.0变迁）
Hadoop 1.0
HDFS（分布式文件存储）
MapReduce（资源管理和分布式数据处理）
Hadoop 2.0
HDFS（分布式文件存储）
MapReduce（分布式数据处理）
YARN（集群资源管理、任务调度）

架构变迁（3.0新版本）
Hadoop 3.0架构组件和Hadoop 2.0类似,3.0着重于性能优化。
通用方面
精简内核、类路径隔离、shell脚本重构
Hadoop HDFS
EC纠删码、多NameNode支持
Hadoop MapReduce
任务本地化优化、内存参数自动推断
Hadoop YARN
Timeline Service V2、队列配置

Apache Hadoop

以上是关于2.1 Apache HadoopHDFS - Apache Hadoop概述的主要内容，如果未能解决你的问题，请参考以下文章