Spark 对同一个 S3 存储桶使用多个凭证

Posted 2023-04-17

技术标签:

【中文标题】Spark 对同一个 S3 存储桶使用多个凭证【英文标题】：Spark using multiple credentials for the same S3 bucket 【发布时间】：2019-08-07 18:27:05 【问题描述】：

我将 Spark 2.1.1 与 Hadoop 2.7.3 结合使用，并且在一个管道中使用来自不同 S3 位置的数据。

我正在使用spark.sparkContext.hadoopConfiguration.set(“fs.s3a.access.key”, $KEY) 设置s3a 凭据，并对机密执行相同操作。

当我使用不同的 S3 存储桶时效果很好，但是当我对同一个存储桶有不同的凭证（一个 S3 存储桶中的文件夹级别权限）时，只处理第一对凭证。

当我尝试使用第二对访问文件时，似乎 spark 配置未更新，并且由于调用 S3 时出现 403 错误而失败。

我想要实现的是在一批中使用不同的凭据处理来自同一个 S3 存储桶的文件。

【问题讨论】：

您能否添加一个可重现的示例来代表您的问题。 【参考方案1】：

对此没有真正的支持。每个 S3A 连接器实例只有一组凭证，特定存储桶的第一个 S3A 文件系统实例通过其 URI 缓存在文件系统缓存中。下一次查找该文件系统 URI 的实例时，会选取具有其凭据的现有实例。

【讨论】：

以上是关于Spark 对同一个 S3 存储桶使用多个凭证的主要内容，如果未能解决你的问题，请参考以下文章