在 AWS Glue 中加入操作后删除具有相同名称的重复字段

Posted

技术标签:

【中文标题】在 AWS Glue 中加入操作后删除具有相同名称的重复字段【英文标题】:Drop duplicate fields with same name after join operation in AWS Glue 【发布时间】:2019-11-19 19:48:24 【问题描述】:

当我在两个 DynamicFrame 上执行连接时,比较具有相同名称的字段,生成的 DynamicFrame 保留这两个字段,但保留一个“。”添加到右侧动态框架的字段名称中。

datasource0 => id, name
datasource1 => id, address
datasource2 = Join.apply(frame1 = datasource0, frame2 = datasource1, keys1 = "id", keys2 = "id")
datasource2 => id, name, .id, address

要删除重复的字段我使用drop_fields,但是当'.'时它不起作用是前缀

datasource2.drop_fields(['.id'])
datasource2 => id, name, .id, address

如何让它工作?

【问题讨论】:

【参考方案1】:

为了完成这项工作,我用“`”(反引号)括住了有问题的字段名称。

datasource2.drop_fields(['`.id`'])
datasource2 => id, name, address

【讨论】:

以上是关于在 AWS Glue 中加入操作后删除具有相同名称的重复字段的主要内容,如果未能解决你的问题,请参考以下文章

如何在 AWS Glue PySpark 中运行并行线程?

爬虫可以更新 AWS Glue 中导入的表吗?

AWS Glue 作业将 Null 写入 Redshift

在pyspark中加入具有相同列名的数据框

AWS Glue to Redshift:是否可以替换,更新或删除数据?

AWS Glue to Redshift:是不是可以替换、更新或删除数据?