Pig Hive Hbase 有何不同

Posted

技术标签:

【中文标题】Pig Hive Hbase 有何不同【英文标题】:How Pig Hive Hbase are different from each other 【发布时间】:2015-01-05 11:28:45 【问题描述】:

我是 hadoop 技术的新手。我想弄清楚这些 Pig Hive 和 Hbase 用于哪种类型的数据(结构化、非结构化、semo 结构化)?

哪种工具在哪种情况下使用效率高?

【问题讨论】:

【参考方案1】:

您应该从阅读最基本的 Hadoop 文档开始:http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F

然后,您可以在每个项目站点上找到最佳解释:


Apache Pig 是一个分析大型数据集的平台,它由一种用于表达数据分析程序的高级语言以及用于评估这些程序的基础架构组成。 Pig 程序的显着特性是它们的结构可以进行大量并行化,这反过来又使它们能够处理非常大的数据集。

http://pig.apache.org/


Apache Hive ™ 数据仓库软件有助于查询和管理位于分布式存储中的大型数据集。 Hive 提供了一种机制来将结构投影到此数据上,并使用称为 HiveQL 的类似 SQL 的语言查询数据。同时,这种语言还允许传统的 map/reduce 程序员在 HiveQL 中表达这种逻辑不方便或效率低下时插入他们的自定义映射器和化简器。

http://hive.apache.org/


当您需要对大数据进行随机、实时的读/写访问时,请使用 Apache HBase。该项目的目标是在商用硬件集群上托管非常大的表——数十亿行 X 数百万列。 Apache HBase 是一个开源、分布式、版本化、非关系型数据库,模仿 Google 的 Bigtable:Chang 等人的结构化数据的分布式存储系统。正如 Bigtable 利用 Google 文件系统提供的分布式数据存储一样,Apache HBase 在 Hadoop 和 HDFS 之上提供了类似 Bigtable 的功能。

http://hbase.apache.org/

【讨论】:

以上是关于Pig Hive Hbase 有何不同的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop

使用 AWS Elastic MapReduce 获取时间序列数据的 Hive、HBase 和 Pig

仅当值不同时才更新 HBase 表

Apache Pig 与 Hive [关闭]

大数据 hadoop pig hive 关系

用于报告的 Hive 或 HBase?