Hadoop可以用来做啥

Posted 2023-04-27

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hadoop可以用来做啥相关的知识，希望对你有一定的参考价值。

Hadoop应用领域还是挺广的，比如：

1、HADOOP应用于数据服务基础平台建设

2、HADOOP用于用户画像

3、HADOOP用于网站点击流日志数据挖掘

参考技术A hadoop是什么？
hadoop是一个平台，是一个适合大数据的分布式存储和计算的平台。什么是分布式存储？这就是后边我们要讲的hadoop核心之一HDFS；什么是分布式计算？这是我们后边要讲的hadoop另外一个重要的核心MapReduce。
hadoop的优点一：低成本
hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的，这些服务器集群是可以支持数千个节点的。
hadoop优点二：高效性
这也是hadoop的核心竞争优势所在，接受到客户的数据请求后，hadoop可以在数据所在的集群节点上并发处理。
hadoop优点三：可靠性
通过分布式存储，hadoop可以自动存储多份副本，当数据处理请求失败后，会自动重新部署计算任务。
hadoop优点四：扩展性
hadoop的分布式存储和分布式计算是在集群节点完成的，这也决定了hadoop可以扩展至更多的集群节点。
hadoop安装方式|hadoop部署方式
hadoop安装方式只有三种：本地安装；伪分布安装；集群安装。后期我们会专题进行讲解。

hadoop是做啥的？

提供海量数据存储和计算的，需要java语言基础。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

特点

1、快照支持在一个特定时间存储一个数据拷贝，快照可以将失效的集群回滚到之前一个正常的时间点上。HDFS已经支持元数据快照。

2、HDFS的设计是用于支持大文件的。运行在HDFS上的程序也是用于处理大数据集的。这些程序仅写一次数据，一次或多次读数据请求，并且这些读操作要求满足流式传输速度。

HDFS支持文件的一次写多次读操作。HDFS中典型的块大小是64MB，一个HDFS文件可以被切分成多个64MB大小的块，如果需要，每一个块可以分布在不同的数据节点上。

3、阶段状态：一个客户端创建一个文件的请求并不会立即转发到名字节点。实际上，一开始HDFS客户端将文件数据缓存在本地的临时文件中。

参考技术A

一个由Apache基金会所开发的分布式系统基础架构，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS。

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

扩展资料

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载（ETL）方面上的天然优势。Hadoop的分布式架构，将大数据处理引擎尽可能地靠近存储，对例如像ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。

Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务（Map）发送到多个节点上，之后再以单个数据集的形式加载（Reduce）到数据仓库里。

参考资料来源：百度百科-Hadoop

参考技术B

1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

2、Hadoop是一种用于业务分析处理的环境。允许大量的计算算来处理超大型非结构化数据集。这些数据可以来自于各种源，但是最常见的数据是通过作为物联网的一部分的传感器创造的数据。为了让其分析处理是有价值的，Hadoop必须快速处理这些数据集，而且要通过Hadoop分布式文件系统（HDFS）实现。

3、Hadoop架构是一个开源的、基于Java的编程框架，设计用于跨电脑集群来处理大数据。Hadoop架构管理多个节点之间的数据传输，确保即使有一个节点坏掉了，系统仍然保有适当的功能。

4、传统Hadoop存储架构的替代品利用了共享的存储环境，这个环境是计算结点连接的。厂商提供了这种解决方案，既可以用他们自己的HDFS兼容的插件，也可以利用亚马逊简单存储服务（S3）接口的Hadoop存储模式。

5、Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。

参考技术C Hadoop是一个分布式计算的解决方案还是一个开源的框架。

Hadoop可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，但不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，拥有更灵活的处理能力，无论任何数据形式最终会转化为key/value，key/value是基本数据单元。用函数式变成Mapreduce代替SQL，SQL是查询语句，而Mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯SQL的Hadoop有开源工具hive代替。

想了解更多有关Hadoop的详情，推荐咨询达内教育。达内教育已从事19年IT技术培训，累计培养100万学员，并且独创TTS8.0教学系统，1v1督学，跟踪式学习，有疑问随时沟通；自主研发的26大课程体系更是紧跟企业需求，企业级项目，课程穿插大厂真实项目讲解，对标企业人才标准，制定专业学习计划，囊括主流热点技术，助力学员更好的提高。感兴趣的话点击此处，免费学习一下参考技术D Hadoop是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。Hadoop为应用程序透明的提供了一组稳定/可靠的接口和数据运动。在Hadoop中实现了Google的MapReduce算法，它能够把应用程序分割成许多很小的工作单元，每个单元可以在任何集群节点上执行或重复执行。此外，Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据，并提供了对数据读写的高吞吐率。由于应用了map/reduce和分布式文件系统使得Hadoop框架具有高容错性，它会自动处理失败节点。已经在具有600个节点的集群测试过Hadoop框架。

以上是关于Hadoop可以用来做啥的主要内容，如果未能解决你的问题，请参考以下文章