PySpark 从目录中读取多个 txt 文件为 json 格式

Posted

技术标签:

【中文标题】PySpark 从目录中读取多个 txt 文件为 json 格式【英文标题】:PySpark read multiple txt files as json format from a directory 【发布时间】:2020-09-19 01:06:00 【问题描述】:

我目前正在分布式数据库类中执行一项任务,用于读取以 json 文件格式编写的推文数据的 txt 文件,并将推文加载到数据帧中(然后通过 pyspark 的 kmeans 算法运行它们)。 我有目录但是我不知道特定文本文件的名称(我很确定目录中的所有文件都是与任务相关的文本文件)。

另外因为我应该通过kmeans算法运行它,我如何获得在运行中使用的非数字特征?

任何帮助将不胜感激。

【问题讨论】:

【参考方案1】:

经过更多的挖掘似乎

dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")

似乎可以解决问题。

【讨论】:

以上是关于PySpark 从目录中读取多个 txt 文件为 json 格式的主要内容,如果未能解决你的问题,请参考以下文章

Pyspark:从路径读取多个 JSON 文件

PySpark 在文本文件中读取为密集向量

使用 PySpark 从 Amazon S3 读取文本文件

Pyspark 从 S3 存储桶的子目录中读取所有 JSON 文件

Pyspark:获取HDFS路径上的文件/目录列表

从目录读取镶木地板文件时,pyspark不保存