使用冰山表格式将自定义元数据添加到 DataFrame 模式

Posted

技术标签:

【中文标题】使用冰山表格式将自定义元数据添加到 DataFrame 模式【英文标题】:Adding custom metadata to DataFrame schema using iceberg table format 【发布时间】:2021-12-31 22:15:31 【问题描述】:

我正在使用 StructField's metadata field 将自定义元数据添加到我的 PySpark 应用程序的 DataFrames 架构中

当我将 parquet 文件直接写入 s3 时,它运行良好。 按预期读取这些 parquet 文件时,自定义元数据可用。

但使用冰山表格格式无法正常工作。没有错误,但df.schema.fields.metadata 始终为空。

有办法解决吗?

【问题讨论】:

【参考方案1】:

通过确保密钥始终是“评论”来解决

例如: 'comment': 'my_metadata_info_field'

【讨论】:

以上是关于使用冰山表格式将自定义元数据添加到 DataFrame 模式的主要内容,如果未能解决你的问题,请参考以下文章

将自定义结帐字段(用户输入)添加到订单数据和用户元数据

将自定义项目添加到 Android 共享表?

将自定义元数据设置为 Google Cloud Storage 中的对象

如何将自定义列添加到数据表?

如何将自定义页脚添加到 Bootstrap-Vue 表

JSF2 将自定义字体添加到 CSS 样式表