hadoop是怎么存储大数据的

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop是怎么存储大数据的相关的知识,希望对你有一定的参考价值。

Hadoop中有很多方法可以加入多个数据集。MapReduce提供了Map端和Reduce端的数据连接。这些连接是非平凡的连接,并且可能会是非常昂贵的操作。Pig和Hive也具有同等的能力来申请连接到多个数据集。Pig提供了复制连接,合并连接和倾斜连接(skewed join),并且Hive提供了map端的连接和完整外部连接来分析数据。

一个重要的事实是,通过使用各种工具,比如MapReduce、Pig和Hive等,数据可以基于它们的内置功能和实际需求来使用它们。至于在Hadoop分析大量数据,Anoop指出,通常,在大数据/Hadoop的世界,一些问题可能并不复杂,并且解决方案也是直截了当的,但面临的挑战是数据量。在这种情况下需要不同的解决办法来解决问题。

一些分析任务是从日志文件中统计明确的ID的数目、在特定的日期范围内改造存储的数据、以及网友排名等。所有这些任务都可以通过Hadoop中的多种工具和技术如MapReduce、Hive、Pig、Giraph和Mahout等来解决。这些工具在自定义例程的帮助下可以灵活地扩展它们的能力。
参考技术A   Hadoop本身是分布式框架,如果在hadoop框架下,需要配合hbase,hive等工具来进行大数据计算。如果具体深入还要了解HDFS,Map/Reduce,任务机制等等。如果要分析还要考虑其他分析展现工具。

大数据还有分析才有价值

用于分析大数据的工具主要有开源与商用两个生态圈。开源大数据生态圈:1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。3、NoSQL,membase、MongoDb商用大数据生态圈:1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。3、数据集市:QlikView、 Tableau 、 以及国内的Yonghong Data Mart 。本回答被提问者采纳
参考技术B 我拿第一代大数据技术平台(Hadoop)来举例
有的说法是Hadoop,它多半指的是Hadoop的一个组成架构:HDFS/MapReduce/Yarn
而Hadoop生态圈指的是包含Hadoop组成架构在内的很多技术 比如Hive Flume Kafka HBase等

以上是关于hadoop是怎么存储大数据的的主要内容,如果未能解决你的问题,请参考以下文章

☞专栏董飞:后Hadoop时代的大数据架构

庞晓曦:基于Hadoop和HBase的大数据存储实践

打怪升级之小白的大数据之旅(五十七)<Hadoop压缩>

Hadoop初步学习

大数据最全的大数据Hadoop|Yarn|Spark|Flink|Hive技术书籍分享/下载链接,持续更新中...

盘点六种常用的大数据分析工具