导出 GCP 自然语言注释器的过滤子集

Posted

技术标签:

【中文标题】导出 GCP 自然语言注释器的过滤子集【英文标题】:Exporting a filtered subset of GCP Natural Language annotator 【发布时间】:2021-01-28 03:03:38 【问题描述】:

我正在 GCP 的自然语言 AutoML 实体提取服务上构建训练数据集。我标记了一小部分文档,我想将它们导出以进行一些初步的探索性数据分析。我可以添加一个过滤器来显示“已标记”文档,但如果我尝试导出,它会导出我的所有文档。

有没有办法只导出符合过滤条件的那些?通过 Python API 也可以。

【问题讨论】:

【参考方案1】:

确实,AutoML 控制台中的导出数据链接将始终导出完整的数据集。没有仅导出所选项目的选项,但是,有一个删除所选项目的选项。 为了完成您的任务,我建议的一种解决方法是删除“不需要的”项目。让我解释一下。

我建议您执行以下步骤。

    导出完整的数据集(这样您就不会从生产数据集中删除任何内容)。 通过导入步骤 1 中的完整数据集,在您的 AutoML 项目中创建一个新数据集。 过滤未标记的文档。 全选并删除(这样做会删除副本数据集中未标记的数据)。

这样,您的新数据集将仅包含标记的文档,您可以执行导出数据并将结果集用于您的 EDA。

最好的问候!

【讨论】:

以上是关于导出 GCP 自然语言注释器的过滤子集的主要内容,如果未能解决你的问题,请参考以下文章

c语言,.c文件注释过滤。程序运行后黑框一直不关闭,输出后的文件是空的。求指教~

将 GCP API 密钥限制为给定 API 的端点子集

获取数组的子集数组

获取数组的子集数组

Linux内核完全注释之编程语言和环境

Terraform GCP - 等待设置使用导出存储桶时出错。:“gcp-bucket”需要“读取”权限