Hadoop 独立集群 Pyspark 加载 CSV 文件不存在（hdfs://home/usr/filepath.csv）

Posted 2023-04-15

技术标签:

【中文标题】Hadoop 独立集群 Pyspark 加载 CSV 文件不存在（hdfs://home/usr/filepath.csv）【英文标题】：Hadoop Standalone Cluster Pyspark Load CSV file does not Exist(hdfs://home/usr/filepath.csv) 【发布时间】：2021-05-19 18:11:30 【问题描述】：

 df = spark.read.csv('/home/hadoop/observations_temp.csv, header=True)

当我运行脚本时会出现以下错误消息：

pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://home/anmol/SnapShot.cvs

【问题讨论】：

你是从 HDFS 读取还是从本地文件读取？来自 hdfs://usr/hadoopusr 【参考方案1】：

我相信你的路径中有一个错字，它是 cvs 而不是 csv。这应该工作

df = spark.read.csv('hdfs://home/anmol/SnapShot.csv')

【讨论】：

以上是关于Hadoop 独立集群 Pyspark 加载 CSV 文件不存在（hdfs://home/usr/filepath.csv）的主要内容，如果未能解决你的问题，请参考以下文章

如何将pyspark数据帧写入不同的hadoop集群

无法让 pyspark 作业在 hadoop 集群的所有节点上运行

独立集群 + Docker 上的 PySpark 性能不佳

如何在 Hadoop 上运行 pySpark

Hadoop“无法为您的平台加载native-hadoop库”警告

Pyspark Mac NativeCodeLoader：无法为您的平台加载 native-hadoop 库......在适用的情况下使用内置 java 类