从 Apache Spark 分段上传到 Amazon S3

Posted 2023-04-17

技术标签:

【中文标题】从 Apache Spark 分段上传到 Amazon S3【英文标题】：Multipart uploads to Amazon S3 from Apache Spark 【发布时间】：2014-10-12 04:42:55 【问题描述】：

如何让 Apache Spark 在将数据保存到 Amazon S3 时使用分段上传。 Spark 使用RDD.saveAs...File 方法写入数据。当目标以s3n:// 开头时，Spark 会自动使用 JetS3Tt 进行上传，但对于大于 5G 的文件会失败。需要使用分段上传将大文件上传到 S3，这应该对小文件也有好处。 JetS3Tt 支持使用 MultipartUtils 进行分段上传，但 Spark 在默认配置中不使用此功能。有没有办法让它使用这个功能。

【问题讨论】：

【参考方案1】：

这是 s3n 的限制，您可以使用新的 s3a 协议在 S3 中访问您的文件。 s3a 基于 aws-adk 库并支持包括分段上传在内的许多功能。更多详情请看link：

【讨论】：

【参考方案2】：

s3n 似乎正在弃用。

来自他们的documentation