使用 pyspark 处理结构数据类型

Posted 2023-04-15

技术标签:

【中文标题】使用 pyspark 处理结构数据类型【英文标题】：Working with struct data type using pysprak 【发布时间】：2020-05-29 05:54:40 【问题描述】：

我打算在 pyspark 中处理 struct 数据类型，它说明了 dynamodb 中的映射数据类型。由于我计划在具有地图属性的 dynamodb 表中执行转换，因此我想使用 pyspark 实现相同的目的。在这种情况下，我想处理健康属性。


  "file_name": "employeesalarydata",
  "folder_name": "doc_consumption_employeesalarydata",
  "Health": 
    "New version - Veracity unavailable": "A new dataset is available but IDQ rules are not generated yet"
  ,
  "last_modified_date": "2020-05-13T10:10:37.519Z",
  "resource_id": "6df1e646-a16d-11ea-a60e-d43b04339964"

【问题讨论】：

欢迎来到 SO！很好，但无法理解您在哪里需要帮助或者您正在寻找建议？我想对 heath 属性中的字段执行 spark.sql 操作，我需要示例代码供参考。好！你能用你想要执行的一些示例操作来更新你的问题吗？例如，给两个示例记录并询问你想要做的事情，如果你遇到错误，请在此处发布 【参考方案1】：

我认为https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.get_json_object 应该可以帮助您获取对象。

例子：

import pyspark.sql.functions as f

spark.table('schema.table')\
.select(f.get_json_object('column_name', '$.Health').alias('health'))\
.show()

【讨论】：

以上是关于使用 pyspark 处理结构数据类型的主要内容，如果未能解决你的问题，请参考以下文章