pyspark 兼容 hadoop aws 和 aws sdk 版本 2.4.4

Posted

技术标签:

【中文标题】pyspark 兼容 hadoop aws 和 aws sdk 版本 2.4.4【英文标题】:pyspark compatible hadoop aws and aws adk for version 2.4.4 【发布时间】:2020-01-23 15:59:33 【问题描述】:

我正在尝试在 maven https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/2.7.7 和 https://mvnrepository.com/artifact/com.amazonaws/aws-java-sdk/1.7.4 这两个库的帮助下使用 pyspark 从 s3 存储桶中读取和写入,它们真的很旧。我尝试了 hadoop-aws 和 aws-java-SDK 的不同组合,但它不适用于 pyspark 版本 2.4.4 。有谁知道 Hadoop 和 java SDK 的哪些版本与 spark 版本 2.4.4 兼容?

【问题讨论】:

【参考方案1】:

我正在使用以下内容:

Spark: 2.4.4
Hadoop: 2.7.3
Haddop-AWS: hadoop-aws-2.7.3.jar
AWS-JAVA-SDK: aws-java-sdk-1.7.3.jar
Scala: 2.11

为我工作并使用s3a://bucket-name/

注意:对于 PySPark,我使用了aws-java-sdk-1.7.4.jar)因为我无法使用

df.write.csv(path=path, mode="overwrite", compression="None")

【讨论】:

我正在使用相同版本的 jar 文件,但它们已经很旧了。我在考虑更新的版本

以上是关于pyspark 兼容 hadoop aws 和 aws sdk 版本 2.4.4的主要内容,如果未能解决你的问题,请参考以下文章

hadoop aws 版本兼容性

PySpark:AWS s3n 正在工作,但 s3a 没有

使用 pyspark 从 AWS s3 Bucket 读取 csv 时出错

在AWS lambda函数上使用pyspark二进制文件,在向驱动程序发送其端口号之前退出错误Java网关进程

hadoop 2.7.7 的 AWS-Java-SDK 版本问题

window10搭建pyspark(超级详细)