HIVE 或 PIG 作为 Amazon Redshift 的替代品?

Posted

技术标签:

【中文标题】HIVE 或 PIG 作为 Amazon Redshift 的替代品?【英文标题】:HIVE or PIG as an alternative for Amazon Redshift? 【发布时间】:2015-09-10 14:35:52 【问题描述】:

我们正在使用 Amazon Redshift 从我们的 S3 存储桶中提取数据。我们希望通过将 Redshift 替换为 HIVE 或 PIG 来降低成本。

我们可以使用 HIVE 或 PIG 从 Amazon S3 存储桶中提取数据吗?

【问题讨论】:

到目前为止你尝试过什么?别问能不能。而是说“我尝试使用 HIVE 提取数据,但此时它失败了......我做错了什么”。您当前的问题是 google 搜索的候选问题,而不是 *** 问题。 你能提供更多关于你的用例的细节吗?你有多少数据?您是全天运行查询,还是每天批量运行查询?您目前的 Redshift 成本是多少? 【参考方案1】:

Amazon Elastic MapReduce 可用于部署 Apache Hadoop 集群,包括 Hive 和 Pig。

此集群可以访问 S3 中的数据、执行 ETL 操作并将您的数据保存回 Amazon S3。但是,它是一个使用起来相当复杂的系统,并且还会产生费用(尤其是如果您让它整天运行)。

如果您担心 Amazon Redshift 的成本,一些选项是:

使用较小的集群(按节点定价) 晚上关闭 Redshift。先拍摄快照,然后在第二天早上恢复快照。 为 Redshift 购买预留实例以降低价格

【讨论】:

感谢 Jhon 的回答。让我回来提供有关此问题的更多统计信息

以上是关于HIVE 或 PIG 作为 Amazon Redshift 的替代品?的主要内容,如果未能解决你的问题,请参考以下文章

Hive 或 Pig 动态表

在 Amazon AWS 上并行运行 Pig 脚本

使用预先排序的数据加速 Hive 或 Pig 聚合

使用 Hive 或 Pig 在字段中查找重复次数最多的值

使用 PIG 或 HIVE 从 CSV 中删除前两行

用于文件操作的 Pig 或 Hive