谷歌云点击部署hadoop

Posted 2023-03-29

技术标签:

【中文标题】谷歌云点击部署hadoop【英文标题】：Google cloud click to deploy hadoop 【发布时间】：2015-01-21 06:38:11 【问题描述】：

即使您计划使用 hadoop 连接器进行云存储，为什么 google cloud click to deploy hadoop 工作流需要选择本地永久磁盘的大小？默认大小是 500 GB .. 我在想如果它确实需要一些磁盘，它的大小应该小得多。在谷歌云中使用带有 hadoop 的云存储连接器时，是否有推荐的永久磁盘大小？

“在谷歌云平台上部署 Apache Hadoop

Apache Hadoop 框架支持跨计算机集群对大型数据集进行分布式处理。

Hadoop 将部署在单个集群中。默认部署创建 1 个主虚拟机实例和 2 个工作虚拟机，每个虚拟机有 4 个 vCPU、15 GB 内存和 500 GB 磁盘。创建一个临时部署协调器 VM 实例来管理集群设置。

Hadoop 集群使用 Cloud Storage 存储桶作为其默认文件系统，可通过 Google Cloud Storage 连接器进行访问。访问 Cloud Storage 浏览器以查找或创建可在 Hadoop 部署中使用的存储桶。

Google 计算引擎上的 Apache Hadoop 单击以部署 Apache Hadoop 阿帕奇Hadoop 区 us-central1-a 工作节点数

云存储桶选择一个桶 Hadoop 版本 1.2.1 主节点磁盘类型标准永久性磁盘主节点磁盘大小 (GB)

工作节点磁盘类型标准永久性磁盘工作节点磁盘大小 (GB) "

【问题讨论】：

它在哪里说明了本地磁盘？可能是本地不是正确的词..我指的是主节点和工作节点的“标准持久磁盘”大小要求。我想这种大小的磁盘对于工人 MR 作业是“必需的”，云存储可能用于作业的输出？我只是在这里猜测，但这是有道理的。 【参考方案1】：

永久性磁盘 (PD) 的三大用途是：

日志，守护进程和作业（或 YARN 中的容器）在打开调试日志记录后，这些可能会变得非常大，并可能导致每秒多次写入 MapReduce 洗牌这些可能很大，但从更高的 IOPS 和吞吐量中获益更多 HDFS（图像和数据）

由于目录的布局，永久性磁盘也将用于其他项目，如作业数据（JAR、与应用程序一起分发的辅助数据等），但这些也可以很容易地使用启动 PD。

由于 GCE 根据磁盘大小 [1] 扩展 IOPS 和吞吐量的方式，更大的永久性磁盘几乎总是更好。 500G 可能是开始分析您的应用程序和使用的良好起点。如果您不使用 HDFS，发现您的应用程序不会记录太多日志，并且在 shuffle 时不会溢出到磁盘，那么较小的磁盘可能也可以很好地工作。

如果您发现您实际上不需要或不需要任何永久性磁盘，那么 bdutil [2] 也可以作为命令行脚本存在，它可以创建具有更多可配置性和可定制性的集群。

https://cloud.google.com/developers/articles/compute-engine-disks-price-performance-and-persistence/ https://cloud.google.com/hadoop/

【讨论】：

以上是关于谷歌云点击部署hadoop的主要内容，如果未能解决你的问题，请参考以下文章

部署 ruby api 谷歌云

Symfony 部署谷歌云

如何使用谷歌应用引擎将 php 项目部署到谷歌云中？

在谷歌云平台部署python脚本

如何将 nodejs 应用程序部署到谷歌云？

谷歌云部署太慢了