pyspark 兼容 hadoop aws 和 aws sdk 版本 2.4.4

Posted 2023-03-24

技术标签:

【中文标题】pyspark 兼容 hadoop aws 和 aws sdk 版本 2.4.4【英文标题】：pyspark compatible hadoop aws and aws adk for version 2.4.4 【发布时间】：2020-01-23 15:59:33 【问题描述】：

我正在尝试在 maven https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/2.7.7 和 https://mvnrepository.com/artifact/com.amazonaws/aws-java-sdk/1.7.4 这两个库的帮助下使用 pyspark 从 s3 存储桶中读取和写入，它们真的很旧。我尝试了 hadoop-aws 和 aws-java-SDK 的不同组合，但它不适用于 pyspark 版本 2.4.4 。有谁知道 Hadoop 和 java SDK 的哪些版本与 spark 版本 2.4.4 兼容？

【问题讨论】：

【参考方案1】：

我正在使用以下内容：

Spark: 2.4.4
Hadoop: 2.7.3
Haddop-AWS: hadoop-aws-2.7.3.jar
AWS-JAVA-SDK: aws-java-sdk-1.7.3.jar
Scala: 2.11

为我工作并使用s3a://bucket-name/

（注意：对于 PySPark，我使用了aws-java-sdk-1.7.4.jar）因为我无法使用

df.write.csv(path=path, mode="overwrite", compression="None")

【讨论】：

我正在使用相同版本的 jar 文件，但它们已经很旧了。我在考虑更新的版本

以上是关于pyspark 兼容 hadoop aws 和 aws sdk 版本 2.4.4的主要内容，如果未能解决你的问题，请参考以下文章

hadoop aws 版本兼容性

PySpark：AWS s3n 正在工作，但 s3a 没有

使用 pyspark 从 AWS s3 Bucket 读取 csv 时出错

在AWS lambda函数上使用pyspark二进制文件，在向驱动程序发送其端口号之前退出错误Java网关进程

hadoop 2.7.7 的 AWS-Java-SDK 版本问题

window10搭建pyspark（超级详细）