当我使用作业胶水时，Amazon S3 中的数据是不是会在公共互联网上传输？

Posted 2023-03-31

技术标签:

【中文标题】当我使用作业胶水时，Amazon S3 中的数据是不是会在公共互联网上传输？【英文标题】：Does data in Amazon S3 go on public internet when i use job glue?当我使用作业胶水时，Amazon S3 中的数据是否会在公共互联网上传输？ 【发布时间】：2021-06-29 14:53:27 【问题描述】：

我正在使用 AWS 服务来创建数据管道我有数据存储在 Amazon S3 存储桶中，我计划使用胶水爬虫来抓取前缀下的数据以提取元数据，并在胶水作业之后执行 ETL 并将数据保存在另一个存储桶中。

我的问题是：服务在哪个网络中工作并相互通信？数据可能会从 Amazon S3 转移到公共互联网上吗？

是否有任何指向 aws 文档的链接来解释 AWS 服务在它们之间传输数据时使用哪些网络？

【问题讨论】：

一般来说：没有。特别是当停留在一个区域/az 流量不通过公共互联网时。安全性是一个原因，另一个原因是 AWS 会与其他互联网流量竞争。如果他们自己路由，他们可以优化交通和路线。出于完全相同的原因，即使跨区域访问，您的流量也可能永远不会通过公共互联网。相关的非 AWS 研究：konekti.us/post/… 【参考方案1】：

您需要对任何资源授予显式权限才能访问您的 S3 存储桶。

AIM 角色。使用策略创建一个角色并将该角色附加到 AWS 资源。

Bucket Policy 是另一种授予访问权限的机制。

默认情况下，所有内容都是私有的，您需要授予访问权限，否则无法从 Internet 访问否。

【讨论】：

感谢您的回答。是的，我已经定义了 IAM 角色和相关权限，并且管道正在工作……但我不明白这一点：当胶水执行作业并访问我的 s3 存储桶中的数据时……访问它使用的数据公共互联网与否？

以上是关于当我使用作业胶水时，Amazon S3 中的数据是不是会在公共互联网上传输？的主要内容，如果未能解决你的问题，请参考以下文章

胶水作业无法写入文件

如何在 AWS 中使用 Glue 作业覆盖 s3 数据

胶水加载作业不保留红移中的默认列值

AWS Glue 作业在写入 S3 时被拒绝访问

aws 胶水主要丢弃空字段

aws 胶水 pyspark 删除数组中的结构，但保留数据并保存到 dynamodb