导出 GCP 自然语言注释器的过滤子集
Posted
技术标签:
【中文标题】导出 GCP 自然语言注释器的过滤子集【英文标题】:Exporting a filtered subset of GCP Natural Language annotator 【发布时间】:2021-01-28 03:03:38 【问题描述】:我正在 GCP 的自然语言 AutoML 实体提取服务上构建训练数据集。我标记了一小部分文档,我想将它们导出以进行一些初步的探索性数据分析。我可以添加一个过滤器来显示“已标记”文档,但如果我尝试导出,它会导出我的所有文档。
有没有办法只导出符合过滤条件的那些?通过 Python API 也可以。
【问题讨论】:
【参考方案1】:确实,AutoML 控制台中的导出数据链接将始终导出完整的数据集。没有仅导出所选项目的选项,但是,有一个删除所选项目的选项。 为了完成您的任务,我建议的一种解决方法是删除“不需要的”项目。让我解释一下。
我建议您执行以下步骤。
-
导出完整的数据集(这样您就不会从生产数据集中删除任何内容)。
通过导入步骤 1 中的完整数据集,在您的 AutoML 项目中创建一个新数据集。
过滤未标记的文档。
全选并删除(这样做会删除副本数据集中未标记的数据)。
这样,您的新数据集将仅包含标记的文档,您可以执行导出数据并将结果集用于您的 EDA。
最好的问候!
【讨论】:
以上是关于导出 GCP 自然语言注释器的过滤子集的主要内容,如果未能解决你的问题,请参考以下文章