使用冰山表格式将自定义元数据添加到 DataFrame 模式
Posted
技术标签:
【中文标题】使用冰山表格式将自定义元数据添加到 DataFrame 模式【英文标题】:Adding custom metadata to DataFrame schema using iceberg table format 【发布时间】:2021-12-31 22:15:31 【问题描述】:我正在使用 StructField
's metadata field 将自定义元数据添加到我的 PySpark 应用程序的 DataFrames 架构中
当我将 parquet 文件直接写入 s3 时,它运行良好。 按预期读取这些 parquet 文件时,自定义元数据可用。
但使用冰山表格格式无法正常工作。没有错误,但df.schema.fields.metadata
始终为空。
有办法解决吗?
【问题讨论】:
【参考方案1】:通过确保密钥始终是“评论”来解决
例如: 'comment': 'my_metadata_info_field'
【讨论】:
以上是关于使用冰山表格式将自定义元数据添加到 DataFrame 模式的主要内容,如果未能解决你的问题,请参考以下文章