深入了解Hadoop

Posted 2021-04-13 程序员OfHome

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了深入了解Hadoop相关的知识，希望对你有一定的参考价值。

一、了解Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

二、Hadoop的特征

Hadoop是什么：分布式存储+分布式、可拓展计算平台

Hadoop能做什么：搭建大型数据仓库、PB级数据存储、处理、分析

Hadoop优势：高可靠性、低成本、搞拓展、成熟的生态圈、囊括了大数据处理的方方面面

狭义的Hadoop：是一个适合大数据分布式存储（HDFS）、分布式计算（MapReduce）和资源调度（YARN）的平台

广义的Hadoop：指的是hadoop的整个生态系统，Hadoop生态系统是一个很庞大的概念，hadoop是其中一个重要的基础部分，生态系统中的每一个子系统只解决某一个特定的问题域

Hadoop包括哪些模块

hadoop common

hadoop distributed file system（hdfs）负责数据存储

hadoop yarn 负责作业调度与集群资源管理

hadoop MapReduce 基于yarn系统之上可以并行处理大数据计算

三、Hadoop的推荐学习路线

1) Hadoop生态环境介绍

2) Hadoop云计算中的位置和关系

3) 国内外Hadoop应用案例介绍

4) Hadoop 概念、版本、历史

5) Hadoop 核心组成介绍及hdfs、mapreduce 体系结构

6) Hadoop 的集群结构

7) Hadoop 伪分布的详细安装步骤

8) 通过命令行和浏览器观察hadoop

9) HDFS底层工作原理

10) HDFS datanode,namenode详解

11) Hdfs shell

12) Hdfs java api

13) Mapreduce四个阶段介绍

14) Writable

15) InputSplit和OutputSplit

16) Maptask

17) Shuffle：Sort，Partitioner，Group,Combiner

18) Reducer

19) 二次排序

20) 倒排序索引

21) zui优路径

22) 电信数据挖掘之-----移动轨迹预测分析（中国棱镜计划）

23) 社交好友推荐算法

24) 互联网精准广告推送算法

25) 阿里巴巴天池大数据竞赛《天猫推荐算法》案例

26) Mapreduce实战pagerank算法

27) Hadoop2.x集群结构体系介绍

28) Hadoop2.x集群搭建

29) NameNode的高可用性（HA）

30) HDFS Federation

31) ResourceManager 的高可用性（HA）

32) Hadoop集群常见问题和解决方法

33) Hadoop集群管理

将来自己，一定会感谢现在自己的，现在不努力，将来只会后悔。我们不做后悔的哪个，只做最好的自己。

想从事以上工作或者往大数据方向发展的朋友，可以点击联系我们，获取大数据相关资料和高清学习线路图，希望在你发展的道路上有所帮助。

程序员OfHome交流群：610535338

以上是关于深入了解Hadoop的主要内容，如果未能解决你的问题，请参考以下文章

读Hadoop3.2源码，深入了解java调用HDFS的常用操作和HDFS原理

大数据时代之hadoop：hadoop脚本解析

Hadoop技术内幕：深入解析YARN架构设计与实现原理pdf

膜拜！华为内部都在强推的783页大数据处理系统：Hadoop源代码pdf

hadoop组件：HDFS

Hadoop集群管理--保证集群平稳地执行