HIVE 或 PIG 作为 Amazon Redshift 的替代品？

Posted 2023-04-18

技术标签:

【中文标题】HIVE 或 PIG 作为 Amazon Redshift 的替代品？【英文标题】：HIVE or PIG as an alternative for Amazon Redshift? 【发布时间】：2015-09-10 14:35:52 【问题描述】：

我们正在使用 Amazon Redshift 从我们的 S3 存储桶中提取数据。我们希望通过将 Redshift 替换为 HIVE 或 PIG 来降低成本。

我们可以使用 HIVE 或 PIG 从 Amazon S3 存储桶中提取数据吗？

【问题讨论】：

到目前为止你尝试过什么？别问能不能。而是说“我尝试使用 HIVE 提取数据，但此时它失败了......我做错了什么”。您当前的问题是 google 搜索的候选问题，而不是 *** 问题。你能提供更多关于你的用例的细节吗？你有多少数据？您是全天运行查询，还是每天批量运行查询？您目前的 Redshift 成本是多少？ 【参考方案1】：

Amazon Elastic MapReduce 可用于部署 Apache Hadoop 集群，包括 Hive 和 Pig。

此集群可以访问 S3 中的数据、执行 ETL 操作并将您的数据保存回 Amazon S3。但是，它是一个使用起来相当复杂的系统，并且还会产生费用（尤其是如果您让它整天运行）。

如果您担心 Amazon Redshift 的成本，一些选项是：

使用较小的集群（按节点定价）晚上关闭 Redshift。先拍摄快照，然后在第二天早上恢复快照。为 Redshift 购买预留实例以降低价格

【讨论】：

感谢 Jhon 的回答。让我回来提供有关此问题的更多统计信息

以上是关于HIVE 或 PIG 作为 Amazon Redshift 的替代品？的主要内容，如果未能解决你的问题，请参考以下文章

Hive 或 Pig 动态表

在 Amazon AWS 上并行运行 Pig 脚本

使用预先排序的数据加速 Hive 或 Pig 聚合

使用 Hive 或 Pig 在字段中查找重复次数最多的值

使用 PIG 或 HIVE 从 CSV 中删除前两行

用于文件操作的 Pig 或 Hive