为 Hadoop 数据仓库 (Hive) 设置环境
Posted
技术标签:
【中文标题】为 Hadoop 数据仓库 (Hive) 设置环境【英文标题】:Setting up environment for Hadoop datawarehousing (Hive) 【发布时间】:2012-09-25 06:15:01 【问题描述】:我是 Hadoop 新手,正在尝试在数据仓库和分析方面学习它。
有人可以建议我如何设置我的练习机,尤其是关于 1.开始学习所需的机器/节点数 2.是否建议在Windows上设置? 3.需要安装什么软件 4.测试/样本数据的可用性
我还想就使用 Hive 执行 BI 操作的最佳方式获得建议。
谢谢。
【问题讨论】:
【参考方案1】:如果您对 hadoop 机器更感兴趣,我建议您下载 cloudera VM。另一种立即开始的方法 - 使用亚马逊 EMR(弹性 mapreduce)。有一个选项可以在那里创建交互式 hive 集群并开始使用存储在 S3 中的数据集。 关于节点的数量 - 这取决于目标。如果您有兴趣“感受”一些 hadoop 性能 - 至少尝试 4-6 个节点。 如果您无权访问组织的内部 hadoop / hive 集群,上面列出的两种方式都很好。即使在这种情况下 - 我建议在使用共享环境之前尝试与他们一起动手实践。
【讨论】:
以上是关于为 Hadoop 数据仓库 (Hive) 设置环境的主要内容,如果未能解决你的问题,请参考以下文章