Databricks 社区 - 不识别列(Csv 文件 - Python)

Posted

技术标签:

【中文标题】Databricks 社区 - 不识别列(Csv 文件 - Python)【英文标题】:Databricks community - not recognizing columns (Csv file - Python) 【发布时间】:2020-12-12 10:08:40 【问题描述】:

我是第一次使用 Databriks 社区,我有一个问题。我有一个简单的 CSV 文件,显示 7 个字段:医院、社区等。

我使用以下方式加载了文件:

enter image description here

然后我需要计算数据集中的行数和不同医院的数量。当我尝试检查不同医院的数量时,我收到错误:无法解析'Hospital'给定输入列:[Hospital;Barrio;Fecha ingreso;Fecha alta;Edad paciente;Sexo paciente;Área de diagnóstico principal];;

(该命令似乎无法将“医院”识别为列名。)有什么想法吗?

使用的代码:

print("Número de hospitales distintos: " + str(df.select("Hospital").distinct().count()))

【问题讨论】:

【参考方案1】:

您使用了错误的分隔符 - 在您的代码中(最好将其作为文本而不是图像!)您使用 , 作为分隔符,但您的数据由 ; 分隔。所以将行 delimiter = ',' 更改为 delimiter = ';' 它应该可以工作

【讨论】:

以上是关于Databricks 社区 - 不识别列(Csv 文件 - Python)的主要内容,如果未能解决你的问题,请参考以下文章

Databricks - CSV 未正确加载

如果 csv 列标题包含空格,则在 spark 中将 csv 转换为 parquet 会出错

在 ADLS2 中合并通过 DataBricks 准备的 CSV 文件

如何从 PyCharm 连接 Databricks 社区版集群

将 csv 文件导入 python 后,为啥我的某些数据列在我的数据框中无法识别

使用pyspark,spark + databricks时如何将完全不相关的列添加到数据框中