在 AWS EMR 上使用 pyspark

Posted 2023-04-15

技术标签:

【中文标题】在 AWS EMR 上使用 pyspark【英文标题】：Using pyspark on AWS EMR 【发布时间】：2020-01-14 20:16:12 【问题描述】：

我是 PySpark 和 AWS EMR 的新手。我有一个小项目，我需要每小时清理大量数据文件并基于它们构建聚合数据集。这些数据文件存储在 S3 上，我可以利用 Spark 中的一些基本功能（如过滤器和映射）来导出聚合数据。为了节省出口成本并在执行了一些 CBA 分析之后，我决定创建一个 EMR 集群并进行 pypark 调用。使用由 S3 存储桶中创建的文件触发的 Lambda 函数，该概念运行良好。我正在将输出文件写回 S3。

但我无法理解对我创建的 3 节点 EMR 集群的需求及其对我的用途。如何在此处使用 Hadoop 文件系统和节点上可用的所有存储来发挥我的优势？如何查看（如果可能）集群中从/核心节点的利用率？我怎么知道它们被使用、使用频率等？我正在主节点上执行 pyspark 代码。我可以在 pyspark 中使用 EMR 的替代品吗？

是否有任何好的文档可用于更好地理解。

谢谢

【问题讨论】：

【参考方案1】：

Spark 是一个分布式计算框架。它可以处理比内存更大的数据集，并将工作负载分块拆分到多个并行工作人员上。默认情况下，EMR 创建 1 个主节点和 2 个工作节点。 spark节点上的磁盘空间通常不直接使用。 Spark 可以使用该空间来缓存临时结果。要使用 Hadoop 文件系统，您需要在 aws 中启动 hdfs 服务。但是 s3 也是分布式存储。 Hadoop 库支持它。 Spark EMR 附带 Hadoop 驱动程序并开箱即用地支持 S3。将 Spark 与 S3 结合使用是非常有效的存储解决方案，并且足以完成许多基本的数据处理任务。

这是 AWS EMR 中的 Spark 管理器 UI。您可以看到每个正在运行的 Spark 应用程序会话和当前作业。通过单击作业，您可以查看使用了多少执行器。这些执行器是否在所有节点上运行取决于您的 spark 内存和 cpu 配置。调整这些是一个非常大的话题。 SO上有goodhints。还有一个硬件监控选项卡，显示每个节点的 cpu 和内存使用情况。火花代码始终在主节点上执行。但它只是在该节点上创建一个 DAG 计划，并根据计划将实际工作转移到工作节点。因此，指南谈到提交 spark 应用程序而不是执行。

是的。您可以在普通的 ec2 实例上启动自己的 spark 集群。甚至还有一个 standalone mode ，只允许在一台机器上启动 spark。这是相当多的足迹，然后安装。而且您仍然需要调整内存、cpu 和执行程序设置。因此，与仅在 python 中实现一些多处理或使用 dask 相比，这是相当复杂的。然而，这样做是有正当理由的。它允许在一台机器上使用所有内核。它允许您使用众所周知的、有良好文档记录的 api。同一个，可用于处理 PB 级数据。上面的链接文章解释了动机。

另一种可能性是使用 AWS Glue。它是无服务器火花。这服务会将您的作业提交到 AWS 上的一些按需 Spark 节点，你无法控制的地方。类似于 lambda 函数的运行方式在随机 AWS EC2 实例上。然而，胶水有一些限制。和胶水上的pyspark，你不能安装带有c-extensions的python库例如 numpy、pandas、大多数 ml 库。胶水也强迫你创造 Athena 目录中数据的架构映射。但独立火花可以即时处理这些。

Databricks 还在 AWS 之外提供单独的 serverless spark solution。在我看来，它更复杂。它还允许自定义 c 扩展。

官方文档的很大一部分是关注不同的数据处理 api，而不是 apache spark 的内部。 github 上有一些关于 spark 内部结构的很好的注释。我认为每本好书都会涵盖 Spark 的一些内部工作原理。 AWS EMR 只是一个带有纱线编排器的自动化 Spark 集群。（不幸的是，从来没有读过一些关于 spark 的好书，在这里和那里得到了一些信息，所以不能推荐一个）

【讨论】：

以上是关于在 AWS EMR 上使用 pyspark的主要内容，如果未能解决你的问题，请参考以下文章

如何在多个子网上运行 AWS EMR 集群？

在不使用 aws 凭据的情况下连接 Redshift 和 Python（在 emr 上运行）

在 AWS EMR 上使用 pyspark

Apache Hudi在AWS Glue和AWS EMR上同步元数据的异同

在 AWS EMR 上的 PySpark 脚本上找不到 com.amazon.ws.emr.hadoop.fs.EmrFileSystem