PySpark 从目录中读取多个 txt 文件为 json 格式
Posted
技术标签:
【中文标题】PySpark 从目录中读取多个 txt 文件为 json 格式【英文标题】:PySpark read multiple txt files as json format from a directory 【发布时间】:2020-09-19 01:06:00 【问题描述】:我目前正在分布式数据库类中执行一项任务,用于读取以 json 文件格式编写的推文数据的 txt 文件,并将推文加载到数据帧中(然后通过 pyspark 的 kmeans 算法运行它们)。 我有目录但是我不知道特定文本文件的名称(我很确定目录中的所有文件都是与任务相关的文本文件)。
另外因为我应该通过kmeans算法运行它,我如何获得在运行中使用的非数字特征?
任何帮助将不胜感激。
【问题讨论】:
【参考方案1】:经过更多的挖掘似乎
dataset = spark.read.format("json").load("/mnt/ddscoursedatabricksstg/ddscoursedatabricksdata/coronavirus-tweets/*txt")
似乎可以解决问题。
【讨论】:
以上是关于PySpark 从目录中读取多个 txt 文件为 json 格式的主要内容,如果未能解决你的问题,请参考以下文章