一分钟了解Hadoop是什么

Posted 2021-04-13 广东金融IT课程学习

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了一分钟了解Hadoop是什么相关的知识，希望对你有一定的参考价值。

一、对于Hadoop通俗易懂的解释

1、它是一个文件系统。相比较WinXP，它可以同时利用多台机器。

2、装WinXP，1个WinXP系统你只能装在一台机器上。而1个Hadoop系统可以装在很多机器上，也可以装在一台机上。

3、用WinXP保存一个文件，肯定就保存在一台机器上，而Hadoop就不同，一个文件可能会被拆成很多份，分别放在不同的机器上，而你通过Hadoop不需要知道他们具体存到哪里，可以象WinXP下一样访问1个文件。

4、安装WinXP只需要1台标准的个人电脑做为它的底层需求，而Hadoop还需要Linux系统+JAVA做为它的底层需求。

5、WinXP有个漂亮的操作界面，非富的其它功能，一般用户都可以很方便的使用它；而Hadoop没有这些，很多功能都要通过敲命令，甚至写代码才能使用它。

二、对于Hadoop较专业的解释

虽然 Spark 与 Hadoop 有相似之处，但它提供了具有有用差异的一个新的集群计算框架。

1、首先，Spark 是为集群计算中的特定类型的工作负载而设计，即那些在并行操作之间重用工作数据集（比如机器学习算法）的工作负载。为了优化这些类型的工作负载，Spark 引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问延迟。

2、Spark 还引进了名为弹性分布式数据集(RDD) 的抽象。RDD 是分布在一组节点中的只读对象集合。这些集合是弹性的，如果数据集一部分丢失，则可以对它们进行重建。重建部分数据集的过程依赖于容错机制，该机制可以维护 "血统"（即允许基于数据衍生过程重建部分数据集的信息）。RDD 被表示为一个 Scala 对象，并且可以从文件中创建它；一个并行化的切片（遍布于节点之间）；另一个 RDD 的转换形式；并且最终会彻底改变现有 RDD 的持久性，比如请求缓存在内存中。

3、Spark 中的应用程序称为驱动程序，这些驱动程序可实现在单一节点上执行的操作或在一组节点上并行执行的操作。与 Hadoop 类似，Spark 支持单节点集群或多节点集群。对于多节点操作，Spark 依赖于 Mesos 集群管理器。Mesos 为分布式应用程序的资源共享和隔离提供了一个有效平台。该设置充许 Spark 与 Hadoop 共存于节点的一个共享池中。

三、Hadoop优点有哪些？

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。
Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。
Hadoop 还是可伸缩的，能够处理 PB 级数据。
此外，Hadoop 依赖于社区服务，因此它的成本比较低，任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

高可靠性：Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性：Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高容错性：Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
低成本：与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低

以上是关于一分钟了解Hadoop是什么的主要内容，如果未能解决你的问题，请参考以下文章

[Hadoop]一分钟了解Hadoop的前世今生