当我使用作业胶水时,Amazon S3 中的数据是不是会在公共互联网上传输?

Posted

技术标签:

【中文标题】当我使用作业胶水时,Amazon S3 中的数据是不是会在公共互联网上传输?【英文标题】:Does data in Amazon S3 go on public internet when i use job glue?当我使用作业胶水时,Amazon S3 中的数据是否会在公共互联网上传输? 【发布时间】:2021-06-29 14:53:27 【问题描述】:

我正在使用 AWS 服务来创建数据管道 我有数据存储在 Amazon S3 存储桶中,我计划使用胶水爬虫来抓取前缀下的数据以提取元数据,并在胶水作业之后执行 ETL 并将数据保存在另一个存储桶中。

我的问题是:服务在哪个网络中工作并相互通信?数据可能会从 Amazon S3 转移到公共互联网上吗?

是否有任何指向 aws 文档的链接来解释 AWS 服务在它们之间传输数据时使用哪些网络?

【问题讨论】:

一般来说:没有。特别是当停留在一个区域/az 流量不通过公共互联网时。安全性是一个原因,另一个原因是 AWS 会与其他互联网流量竞争。如果他们自己路由,他们可以优化交通和路线。出于完全相同的原因,即使跨区域访问,您的流量也可能永远不会通过公共互联网。 相关的非 AWS 研究:konekti.us/post/… 【参考方案1】:

您需要对任何资源授予显式权限才能访问您的 S3 存储桶。

AIM 角色。使用策略创建一个角色并将该角色附加到 AWS 资源。

Bucket Policy 是另一种授予访问权限的机制。

默认情况下,所有内容都是私有的,您需要授予访问权限,否则无法从 Internet 访问否。

【讨论】:

感谢您的回答。是的,我已经定义了 IAM 角色和相关权限,并且管道正在工作……但我不明白这一点:当胶水执行作业并访问我的 s3 存储桶中的数据时……访问它使用的数据公共互联网与否?

以上是关于当我使用作业胶水时,Amazon S3 中的数据是不是会在公共互联网上传输?的主要内容,如果未能解决你的问题,请参考以下文章

胶水作业无法写入文件

如何在 AWS 中使用 Glue 作业覆盖 s3 数据

胶水加载作业不保留红移中的默认列值

AWS Glue 作业在写入 S3 时被拒绝访问

aws 胶水主要丢弃空字段

aws 胶水 pyspark 删除数组中的结构,但保留数据并保存到 dynamodb