从文本文件创建数据框,在 pyspark 中不起作用

Posted

技术标签:

【中文标题】从文本文件创建数据框,在 pyspark 中不起作用【英文标题】:Creating a dataframe from text files, in pyspark does not work 【发布时间】:2020-05-01 20:21:49 【问题描述】:

以下是将由 ^ 分隔的数据文件列表读取到数据框中的代码。但是,每个字段都作为单独的行加载,而不是逐行读取。

换句话说,一行只包含一个字段,而不是一行的所有字段。

这是在 Databricks 的 python spark 中完成的。

字段由 ^ 分隔。

df = spark.read.text(paths='path/srcfilepath',lineSep='^')

【问题讨论】:

请提供minimal reproducible example,以及当前和预期的输出。 【参考方案1】:

使用 spark.read.csv 代替带有 delimiter 选项的 text ^

spark.read.option("delimiter","^").csv("path/srcfilepath").show()

【讨论】:

以上是关于从文本文件创建数据框,在 pyspark 中不起作用的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 pyspark 从文本日志文件的特定部分创建数据框

将pyspark数据框写入文本文件

为啥在 pyspark 中加入两个临时视图后删除列不起作用,但它适用于数据框连接?

在 pyspark 中使用 RDD 从字典创建数据框

wpf 虚拟键盘在安装过程中不起作用

如何将存储在 HDFS 中包含行的文本文件转换为 Pyspark 中的数据框?