当我使用作业胶水时,Amazon S3 中的数据是不是会在公共互联网上传输?
Posted
技术标签:
【中文标题】当我使用作业胶水时,Amazon S3 中的数据是不是会在公共互联网上传输?【英文标题】:Does data in Amazon S3 go on public internet when i use job glue?当我使用作业胶水时,Amazon S3 中的数据是否会在公共互联网上传输? 【发布时间】:2021-06-29 14:53:27 【问题描述】:我正在使用 AWS 服务来创建数据管道 我有数据存储在 Amazon S3 存储桶中,我计划使用胶水爬虫来抓取前缀下的数据以提取元数据,并在胶水作业之后执行 ETL 并将数据保存在另一个存储桶中。
我的问题是:服务在哪个网络中工作并相互通信?数据可能会从 Amazon S3 转移到公共互联网上吗?
是否有任何指向 aws 文档的链接来解释 AWS 服务在它们之间传输数据时使用哪些网络?
【问题讨论】:
一般来说:没有。特别是当停留在一个区域/az 流量不通过公共互联网时。安全性是一个原因,另一个原因是 AWS 会与其他互联网流量竞争。如果他们自己路由,他们可以优化交通和路线。出于完全相同的原因,即使跨区域访问,您的流量也可能永远不会通过公共互联网。 相关的非 AWS 研究:konekti.us/post/… 【参考方案1】:您需要对任何资源授予显式权限才能访问您的 S3 存储桶。
AIM 角色。使用策略创建一个角色并将该角色附加到 AWS 资源。
Bucket Policy 是另一种授予访问权限的机制。
默认情况下,所有内容都是私有的,您需要授予访问权限,否则无法从 Internet 访问否。
【讨论】:
感谢您的回答。是的,我已经定义了 IAM 角色和相关权限,并且管道正在工作……但我不明白这一点:当胶水执行作业并访问我的 s3 存储桶中的数据时……访问它使用的数据公共互联网与否?以上是关于当我使用作业胶水时,Amazon S3 中的数据是不是会在公共互联网上传输?的主要内容,如果未能解决你的问题,请参考以下文章