PySpark 从目录中读取多个 txt 文件为 json 格式

Posted 2023-03-12

技术标签:

【中文标题】PySpark 从目录中读取多个 txt 文件为 json 格式【英文标题】：PySpark read multiple txt files as json format from a directory 【发布时间】：2020-09-19 01:06:00 【问题描述】：

我目前正在分布式数据库类中执行一项任务，用于读取以 json 文件格式编写的推文数据的 txt 文件，并将推文加载到数据帧中（然后通过 pyspark 的 kmeans 算法运行它们）。我有目录但是我不知道特定文本文件的名称（我很确定目录中的所有文件都是与任务相关的文本文件）。

另外因为我应该通过kmeans算法运行它，我如何获得在运行中使用的非数字特征？

任何帮助将不胜感激。

【问题讨论】：

【参考方案1】：

经过更多的挖掘似乎

dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")

似乎可以解决问题。

【讨论】：

以上是关于PySpark 从目录中读取多个 txt 文件为 json 格式的主要内容，如果未能解决你的问题，请参考以下文章

Pyspark：从路径读取多个 JSON 文件

PySpark 在文本文件中读取为密集向量

使用 PySpark 从 Amazon S3 读取文本文件

Pyspark 从 S3 存储桶的子目录中读取所有 JSON 文件

Pyspark：获取HDFS路径上的文件/目录列表

从目录读取镶木地板文件时，pyspark不保存