hadoop是怎么存储大数据的

Posted 2023-03-04

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了hadoop是怎么存储大数据的相关的知识，希望对你有一定的参考价值。

Hadoop中有很多方法可以加入多个数据集。MapReduce提供了Map端和Reduce端的数据连接。这些连接是非平凡的连接，并且可能会是非常昂贵的操作。Pig和Hive也具有同等的能力来申请连接到多个数据集。Pig提供了复制连接，合并连接和倾斜连接（skewed join），并且Hive提供了map端的连接和完整外部连接来分析数据。

一个重要的事实是，通过使用各种工具，比如MapReduce、Pig和Hive等，数据可以基于它们的内置功能和实际需求来使用它们。至于在Hadoop分析大量数据，Anoop指出，通常，在大数据/Hadoop的世界，一些问题可能并不复杂，并且解决方案也是直截了当的，但面临的挑战是数据量。在这种情况下需要不同的解决办法来解决问题。

一些分析任务是从日志文件中统计明确的ID的数目、在特定的日期范围内改造存储的数据、以及网友排名等。所有这些任务都可以通过Hadoop中的多种工具和技术如MapReduce、Hive、Pig、Giraph和Mahout等来解决。这些工具在自定义例程的帮助下可以灵活地扩展它们的能力。参考技术A 　　Hadoop本身是分布式框架，如果在hadoop框架下，需要配合hbase，hive等工具来进行大数据计算。如果具体深入还要了解HDFS，Map/Reduce，任务机制等等。如果要分析还要考虑其他分析展现工具。

大数据还有分析才有价值

用于分析大数据的工具主要有开源与商用两个生态圈。开源大数据生态圈：1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成。2、. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。3、NoSQL，membase、MongoDb商用大数据生态圈：1、一体机数据库/数据仓库：IBM PureData(Netezza), OracleExadata, SAP Hana等等。2、数据仓库：TeradataAsterData, EMC GreenPlum, HPVertica 等等。3、数据集市：QlikView、 Tableau 、以及国内的Yonghong Data Mart 。本回答被提问者采纳参考技术B 我拿第一代大数据技术平台(Hadoop)来举例
有的说法是Hadoop，它多半指的是Hadoop的一个组成架构：HDFS/MapReduce/Yarn
而Hadoop生态圈指的是包含Hadoop组成架构在内的很多技术比如Hive Flume Kafka HBase等

以上是关于hadoop是怎么存储大数据的的主要内容，如果未能解决你的问题，请参考以下文章

☞专栏董飞：后Hadoop时代的大数据架构

庞晓曦：基于Hadoop和HBase的大数据存储实践

打怪升级之小白的大数据之旅(五十七)＜Hadoop压缩＞

Hadoop初步学习

大数据最全的大数据Hadoop|Yarn|Spark|Flink|Hive技术书籍分享/下载链接，持续更新中...

盘点六种常用的大数据分析工具