Databricks 社区 - 不识别列(Csv 文件 - Python)
Posted
技术标签:
【中文标题】Databricks 社区 - 不识别列(Csv 文件 - Python)【英文标题】:Databricks community - not recognizing columns (Csv file - Python) 【发布时间】:2020-12-12 10:08:40 【问题描述】:我是第一次使用 Databriks 社区,我有一个问题。我有一个简单的 CSV 文件,显示 7 个字段:医院、社区等。
我使用以下方式加载了文件:
enter image description here
然后我需要计算数据集中的行数和不同医院的数量。当我尝试检查不同医院的数量时,我收到错误:无法解析'Hospital
'给定输入列:[Hospital;Barrio;Fecha ingreso;Fecha alta;Edad paciente;Sexo paciente;Área de diagnóstico principal];;
(该命令似乎无法将“医院”识别为列名。)有什么想法吗?
使用的代码:
print("Número de hospitales distintos: " + str(df.select("Hospital").distinct().count()))
【问题讨论】:
【参考方案1】:您使用了错误的分隔符 - 在您的代码中(最好将其作为文本而不是图像!)您使用 ,
作为分隔符,但您的数据由 ;
分隔。所以将行 delimiter = ','
更改为 delimiter = ';'
它应该可以工作
【讨论】:
以上是关于Databricks 社区 - 不识别列(Csv 文件 - Python)的主要内容,如果未能解决你的问题,请参考以下文章
如果 csv 列标题包含空格,则在 spark 中将 csv 转换为 parquet 会出错
在 ADLS2 中合并通过 DataBricks 准备的 CSV 文件
如何从 PyCharm 连接 Databricks 社区版集群