AWS Glue 的工作原理是啥?

Posted

技术标签:

【中文标题】AWS Glue 的工作原理是啥?【英文标题】:How AWS Glue works?AWS Glue 的工作原理是什么? 【发布时间】:2021-01-07 09:11:09 【问题描述】:

我阅读了多篇关于 AWS Glue 的 ETL 帖子。但我得到的不多。 有人可以用简单的话解释一下 AWS Glue 的工作原理吗?它创建了 ENI,但它有什么用?我在某处读到 AWS Glue 作业在 AWS Glue 私有子网中运行,这是真的吗?你能用架构图解释一下吗?还有为什么我们在创建Glue连接时需要提供VPC?

【问题讨论】:

AWS re:Invent 2016: NEW LAUNCH! Introduction to AWS Glue: A Fully Managed ETL Service (BDA209) - YouTube 你读过这个docs.aws.amazon.com/glue/latest/dg/how-it-works.html吗? 要让 Glue 对您的数据进行 ETL,Glue 需要访问您的数据。如果该数据位于您的 VPC 私有子网内的数据存储(例如 mysql DB)中,则 Glue 需要将 ENI 放入该子网,否则它无法访问(私有)数据源。如果数据可通过公共端点(例如在 S3 或 DynamoDB 中)获得,则无需在您的 VPC 中运行 Glue。 【参考方案1】:

为了使概念尽可能简单,请将 AWS Glue 视为 Spark,您可以在其中编写 Python/Scala 脚本来执行特定的数据处理任务,作为可以执行的作业,例如,使用 GlueContext 的 Python 脚本从 S3 存储桶中读取 CSV 文件并将其存储为 JSON。

关于网络和 VPC,您可以在 VPC 和 AWS Glue 之间建立私有连接。您可以使用此连接使 AWS Glue 无需通过公共互联网即可与您的 VPC 中的资源进行通信。使用 VPC,您可以控制网络设置,例如 IP 地址范围、子网、路由表和网络网关。

AWS Glue VPC Reference

AWS Glue 概念:

AWS Reference

【讨论】:

以上是关于AWS Glue 的工作原理是啥?的主要内容,如果未能解决你的问题,请参考以下文章

4G DTU工作原理是啥

4G的基本工作原理是啥?

AWS Glue 开发终端节点无法正常工作

G.1X 和 G.2X 的 AWS Glue 工作线程定价详细信息

Python 函数在 AWS Glue 中返回非类型,即使是在本地机器上工作的相同函数

AWS Glue 作业的预期运行时间