使用 pyspark 提交作业时,如何使用 --files 参数访问静态文件上传?

Posted

技术标签:

【中文标题】使用 pyspark 提交作业时,如何使用 --files 参数访问静态文件上传?【英文标题】:While submit job with pyspark, how to access static files upload with --files argument? 【发布时间】:2016-04-28 15:06:00 【问题描述】:

例如,我有一个文件夹:

/
  - test.py
  - test.yml

作业被提交到火花集群:

gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"

test.py,我想访问我上传的静态文件。

with open('test.yml') as test_file:
    logging.info(test_file.read())

但出现以下异常:

IOError: [Errno 2] No such file or directory: 'test.yml'

如何访问我上传的文件?

【问题讨论】:

我想到的第一件事就是将文件添加到集群可以访问的分布式文件系统(如 HDFS)中。我相信其他人会提供更好的解决方案。 【参考方案1】:

使用SparkContext.addFile(和--files)分发的文件可以通过SparkFiles 访问。它提供了两种方法:

getRootDirectory() - 返回分布式文件的根目录 get(filename) - 返回文件的绝对路径

我不确定是否有任何 Dataproc 特定的限制,但这样的东西应该可以正常工作:

from pyspark import SparkFiles

with open(SparkFiles.get('test.yml')) as test_file:
    logging.info(test_file.read())

【讨论】:

它有效,谢谢!注意:SparkFiles.get 返回文件路径而不是文件 obj!!【参考方案2】:

目前,由于 Dataproc 不再处于测试阶段,为了从 PySpark 代码直接访问云存储中的文件,使用 --files 参数提交作业即可。 SparkFiles 不是必需的。例如:

gcloud dataproc jobs submit pyspark \
  --cluster *cluster name* --region *region name* \
  --files gs://<BUCKET NAME>/<FILE NAME> gs://<BUCKET NAME>/filename.py

在通过 Spark API 从 gcs 读取输入时,它可以与 gcs 连接器一起使用。

【讨论】:

【参考方案3】:

是的,Shagun 是对的。

基本上,当您向 spark 提交 spark 作业时,它不会将您要处理的文件序列化给每个工作人员。你必须自己做。

通常,您必须将文件放在共享文件系统中,例如 HDFS、S3(亚马逊)或所有工作人员都可以访问的任何其他 DFS。只要您这样做,并在您的 spark 脚本中指定文件目标,spark 作业将能够按照您的意愿读取和处理。

但是,话虽如此,将文件复制到所有工作人员和主人的文件结构中的相同目标也可以。 exp,你可以在所有spark节点中创建/opt/spark-job/all-files/之类的文件夹,rsync文件到所有节点,然后你可以在你的spark脚本中使用文件。但请不要这样做。 DFS 或 S3 比这种方法要好得多。

【讨论】:

application-jar:包含您的应用程序和所有依赖项的捆绑 jar 的路径。 URL 必须在集群内全局可见,例如,所有节点上都存在 hdfs:// 路径或 file:// 路径。来自spark.apache.org/docs/latest/submitting-applications.html

以上是关于使用 pyspark 提交作业时,如何使用 --files 参数访问静态文件上传?的主要内容,如果未能解决你的问题,请参考以下文章

如何通过在 Apache Flink 中使用上传的 jar 来提交作业?

如何提交依赖于 google dataproc 集群的 pyspark 作业

C博客作业--指针

如何使用 SLURM 提交并行作业步骤?

在使用 jar 选项时将作业提交到不同的公平调度程序池

在 google dataproc 上执行 hive 作业时如何使用参数/属性标志值