谷歌云点击部署hadoop

Posted

技术标签:

【中文标题】谷歌云点击部署hadoop【英文标题】:Google cloud click to deploy hadoop 【发布时间】:2015-01-21 06:38:11 【问题描述】:

即使您计划使用 hadoop 连接器进行云存储,为什么 google cloud click to deploy hadoop 工作流需要选择本地永久磁盘的大小?默认大小是 500 GB .. 我在想如果它确实需要一些磁盘,它的大小应该小得多。在谷歌云中使用带有 hadoop 的云存储连接器时,是否有推荐的永久磁盘大小?

“在谷歌云平台上部署 Apache Hadoop

Apache Hadoop 框架支持跨计算机集群对大型数据集进行分布式处理。

Hadoop 将部署在单个集群中。默认部署创建 1 个主虚拟机实例和 2 个工作虚拟机,每个虚拟机有 4 个 vCPU、15 GB 内存和 500 GB 磁盘。创建一个临时部署协调器 VM 实例来管理集群设置。

Hadoop 集群使用 Cloud Storage 存储桶作为其默认文件系统,可通过 Google Cloud Storage 连接器进行访问。访问 Cloud Storage 浏览器以查找或创建可在 Hadoop 部署中使用的存储桶。

Google 计算引擎上的 Apache Hadoop 单击以部署 Apache Hadoop 阿帕奇Hadoop 区 us-central1-a 工作节点数

云存储桶 选择一个桶 Hadoop 版本 1.2.1 主节点磁盘类型 标准永久性磁盘 主节点磁盘大小 (GB)

工作节点磁盘类型 标准永久性磁盘 工作节点磁盘大小 (GB) "

【问题讨论】:

它在哪里说明了本地磁盘? 可能是本地不是正确的词..我指的是主节点和工作节点的“标准持久磁盘”大小要求。 我想这种大小的磁盘对于工人 MR 作业是“必需的”,云存储可能用于作业的输出?我只是在这里猜测,但这是有道理的。 【参考方案1】:

永久性磁盘 (PD) 的三大用途是:

日志,守护进程和作业(或 YARN 中的容器) 在打开调试日志记录后,这些可能会变得非常大,并可能导致每秒多次写入 MapReduce 洗牌 这些可能很大,但从更高的 IOPS 和吞吐量中获益更多 HDFS(图像和数据)

由于目录的布局,永久性磁盘也将用于其他项目,如作业数据(JAR、与应用程序一起分发的辅助数据等),但这些也可以很容易地使用启动 PD。

由于 GCE 根据磁盘大小 [1] 扩展 IOPS 和吞吐量的方式,更大的永久性磁盘几乎总是更好。 500G 可能是开始分析您的应用程序和使用的良好起点。如果您不使用 HDFS,发现您的应用程序不会记录太多日志,并且在 shuffle 时不会溢出到磁盘,那么较小的磁盘可能也可以很好地工作。

如果您发现您实际上不需要或不需要任何永久性磁盘,那么 bdutil [2] 也可以作为命令行脚本存在,它可以创建具有更多可配置性和可定制性的集群。

    https://cloud.google.com/developers/articles/compute-engine-disks-price-performance-and-persistence/ https://cloud.google.com/hadoop/

【讨论】:

以上是关于谷歌云点击部署hadoop的主要内容,如果未能解决你的问题,请参考以下文章

部署 ruby​​ api 谷歌云

Symfony 部署谷歌云

如何使用谷歌应用引擎将 php 项目部署到谷歌云中?

在谷歌云平台部署python脚本

如何将 nodejs 应用程序部署到谷歌云?

谷歌云部署太慢了