pyspark 兼容 hadoop aws 和 aws sdk 版本 2.4.4
Posted
技术标签:
【中文标题】pyspark 兼容 hadoop aws 和 aws sdk 版本 2.4.4【英文标题】:pyspark compatible hadoop aws and aws adk for version 2.4.4 【发布时间】:2020-01-23 15:59:33 【问题描述】:我正在尝试在 maven https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/2.7.7 和 https://mvnrepository.com/artifact/com.amazonaws/aws-java-sdk/1.7.4 这两个库的帮助下使用 pyspark 从 s3 存储桶中读取和写入,它们真的很旧。我尝试了 hadoop-aws 和 aws-java-SDK 的不同组合,但它不适用于 pyspark 版本 2.4.4 。有谁知道 Hadoop 和 java SDK 的哪些版本与 spark 版本 2.4.4 兼容?
【问题讨论】:
【参考方案1】:我正在使用以下内容:
Spark: 2.4.4
Hadoop: 2.7.3
Haddop-AWS: hadoop-aws-2.7.3.jar
AWS-JAVA-SDK: aws-java-sdk-1.7.3.jar
Scala: 2.11
为我工作并使用s3a://bucket-name/
(注意:对于 PySPark,我使用了aws-java-sdk-1.7.4.jar
)因为我无法使用
df.write.csv(path=path, mode="overwrite", compression="None")
【讨论】:
我正在使用相同版本的 jar 文件,但它们已经很旧了。我在考虑更新的版本以上是关于pyspark 兼容 hadoop aws 和 aws sdk 版本 2.4.4的主要内容,如果未能解决你的问题,请参考以下文章
使用 pyspark 从 AWS s3 Bucket 读取 csv 时出错
在AWS lambda函数上使用pyspark二进制文件,在向驱动程序发送其端口号之前退出错误Java网关进程