从 pyspark 访问 S3 存储桶中的文件

Posted 2023-04-15

技术标签:

【中文标题】从 pyspark 访问 S3 存储桶中的文件【英文标题】：Accessing files in S3 bucket from pyspark 【发布时间】：2017-10-20 00:05:41 【问题描述】：

我正在尝试从 pyspark 代码访问存储在 S3 存储桶中的文件。它给了我附加的错误消息。该程序在处理本地存储的文件时运行良好。我尝试使用 s3://、s3a:// 和 s3n://，但它们似乎都不起作用。

代码：

ACCESS_KEY = "*********"
SECRET_KEY = "**********"
EncodedSecretKey = SECRET_KEY.replace("/", "%2F")
s3url="s3n://"+ACCESS_KEY+":"+EncodedSecretKey+"@"+bucket_name+"/"+file_name

sqlContext.read.option("delimiter",delimiter).load(s3url, 
                  format='com.databricks.spark.csv', 
                  header='true', 
                  inferSchema='true')

错误信息

    Traceback (most recent call last):
  File "C:\Users\sachari\AppData\Local\Temp\zeppelin_pyspark-5481670497409059953.py", line 367, in <module>
    raise Exception(traceback.format_exc())
Exception: Traceback (most recent call last):
  File "C:\Users\sachari\AppData\Local\Temp\zeppelin_pyspark-5481670497409059953.py", line 355, in <module>
    exec(code, _zcUserQueryNameSpace)
  File "<stdin>", line 14, in <module>
  File "<stdin>", line 10, in get_df
  File "C:\zeppelin\interpreter\spark\pyspark\pyspark.zip\pyspark\sql\readwriter.py", line 149, in load
    return self._df(self._jreader.load(path))
  File "C:\zeppelin\interpreter\spark\pyspark\py4j-0.10.4-src.zip\py4j\java_gateway.py", line 1133, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "C:\zeppelin\interpreter\spark\pyspark\pyspark.zip\pyspark\sql\utils.py", line 63, in deco
    return f(*a, **kw)
  File "C:\zeppelin\interpreter\spark\pyspark\py4j-0.10.4-src.zip\py4j\protocol.py", line 319, in get_return_value
    format(target_id, ".", name), value)
Py4JJavaError: An error occurred while calling o537.load.
: java.io.IOException: No FileSystem for scheme: s3n
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2584)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:91)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2630)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2612)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:370)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:372)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:370)
    at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
    at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
    at scala.collection.immutable.List.foreach(List.scala:381)
    at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
    at scala.collection.immutable.List.flatMap(List.scala:344)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:370)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:135)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
    at java.lang.reflect.Method.invoke(Unknown Source)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:280)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.lang.Thread.run(Unknown Source)

【问题讨论】：

不要使用s3n。使用方案s3a或s3 Spark read file from S3 using sc.textFile ("s3n://...)的可能重复 【参考方案1】：

你必须加载 aws 包，对于 pyspark shell，您必须按如下方式加载包，它也可以用于 spark-submit 命令。

 pyspark --packages org.apache.hadoop:hadoop-aws:2.7.1

或

您必须按照以下链接设置凭据。

https://hadoop.apache.org/docs/r2.7.2/hadoop-aws/tools/hadoop-aws/index.html

【讨论】：

以上是关于从 pyspark 访问 S3 存储桶中的文件的主要内容，如果未能解决你的问题，请参考以下文章

无法使用 Pyspark 2.4.4 读取 s3 存储桶中的镶木地板文件

在运行 AWS Glue ETL 作业并命名输出文件名时，有没有办法从 S3 存储桶中读取文件名。 pyspark 是不是提供了一种方法来做到这一点？

如何从 Elastic Beanstalk 实例访问 S3 存储桶中的 docker 配置文件

Pyspark 从 S3 存储桶的子目录中读取所有 JSON 文件

从 boto3 检索 S3 存储桶中的子文件夹名称

Pyspark 从 S3 存储桶读取 csv 文件：AnalysisException：路径不存在