Hadoop 独立集群 Pyspark 加载 CSV 文件不存在(hdfs://home/usr/filepath.csv)

Posted

技术标签:

【中文标题】Hadoop 独立集群 Pyspark 加载 CSV 文件不存在(hdfs://home/usr/filepath.csv)【英文标题】:Hadoop Standalone Cluster Pyspark Load CSV file does not Exist(hdfs://home/usr/filepath.csv) 【发布时间】:2021-05-19 18:11:30 【问题描述】:
 df = spark.read.csv('/home/hadoop/observations_temp.csv, header=True)

当我运行脚本时会出现以下错误消息:

pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://home/anmol/SnapShot.cvs

【问题讨论】:

你是从 HDFS 读取还是从本地文件读取? 来自 hdfs://usr/hadoopusr 【参考方案1】:

我相信你的路径中有一个错字,它是 cvs 而不是 csv。这应该工作

df = spark.read.csv('hdfs://home/anmol/SnapShot.csv')

【讨论】:

以上是关于Hadoop 独立集群 Pyspark 加载 CSV 文件不存在(hdfs://home/usr/filepath.csv)的主要内容,如果未能解决你的问题,请参考以下文章

如何将pyspark数据帧写入不同的hadoop集群

无法让 pyspark 作业在 hadoop 集群的所有节点上运行

独立集群 + Docker 上的 PySpark 性能不佳

如何在 Hadoop 上运行 pySpark

Hadoop“无法为您的平台加载native-hadoop库”警告

Pyspark Mac NativeCodeLoader:无法为您的平台加载 native-hadoop 库......在适用的情况下使用内置 java 类