如何在pyspark的JSON文件中选择正确的值

Posted

技术标签:

【中文标题】如何在pyspark的JSON文件中选择正确的值【英文标题】:How to select right values in JSON file in pyspark 【发布时间】:2022-01-22 19:18:23 【问题描述】:

我得到了一个类似这样的 json 文件。

"code": 298484,
"details": 
    "date": "0001-01-01",
    "code" : 0

code 出现两次,一个是满的,一个是空的。我需要第一个详细的数据。 pyspark中的方法是什么?

我试图过滤

df = rdd.map(lambda r: (r['code'], r['details'])).toDF()

但它显示_1, _2(无架构)。

【问题讨论】:

【参考方案1】:

请尝试以下方法:

spark.read.json("path to json").select("code", "details.date")

【讨论】:

这并没有提供问题的答案。要批评或要求作者澄清,请在他们的帖子下方留下评论。 - From Review @kkakkurt:这显然是在提出建议。如果它附带解释它在做什么以及为什么作者认为它可以解决问题,那将是一个更好的答案。但是,如果您愿意,请不要将其删除。 也就是说,Benny,这是一个很好的以声明方式陈述答案的教训。问“你试过这个吗?”或“这个怎么样?”可能会被误认为是一个新问题,或者至少是一个澄清问题。 (不应该,但审稿人有时会走得太快,将修辞问题误认为是实际问题。)我已经编辑了您的问题以澄清这一点。

以上是关于如何在pyspark的JSON文件中选择正确的值的主要内容,如果未能解决你的问题,请参考以下文章

如何仅使用 JavaScript 正确读取 json 文件 [重复]

Pyspark:如何根据另一列中的匹配值从数组中的第一次出现中选择直到最后的值

如何在pyspark中将JSON字符串转换为JSON对象

如何使用 pyspark 在 aws 胶水中展平嵌套 json 中的数组?

使用 pyspark,如何将文件中单行的多个 JSON 文档读入数据框?

如何从数据帧列中的路径读取 AWS 上 pyspark 中的许多 Json 文件?