远程监督:基于规则的标记方法?

Posted

技术标签:

【中文标题】远程监督:基于规则的标记方法?【英文标题】:Distant Supervision: a rule-based labelling approach? 【发布时间】:2020-02-15 00:48:21 【问题描述】:

我目前正在研究实体关系的东西,我发现很多论文都实施了远程监督来标记数据。我对远程监督的理解是,我们有一个既定的知识库 (KB),我们通过检查提取的实体对是否存在于 KB 中来进行“基于规则的标记”。如果实体对存在于 KB 中,则将其标记为正,否则将其标记为负。

我的问题是:

    我是否正确理解了这个远程监督概念? 如果是,我不明白我们为什么要训练神经网络来对基于规则的系统进行分类?例如,如果将来我们得到包含实体的新句子,并且我们想检查它们是否相互关联,我们为什么不直接参考知识库呢?为什么我们要训练实体关系?

谢谢

【问题讨论】:

(2) 因为您可以预测看不见的文本位,基于规则的方法在这方面会失败(KB 查找等) 【参考方案1】:

远程监督是使用基于规则的启发式方法来生成标记数据的方法,生成的标记数据随后用于训练模型(通常是神经网络)。

知识库 (KB) 可用作基于规则的启发式。正如 Nathan McCoy 所说,知识库通常不完整,该模型将使您能够检测到知识库中不存在的实体之间的关系。

Snorkel 是为远程监督而开发的工具示例

【讨论】:

以上是关于远程监督:基于规则的标记方法?的主要内容,如果未能解决你的问题,请参考以下文章

第十七篇:信息抽取Information Extraction

论文解读从可扩展的远程情感监督构建的附有结构和主次标记的MEGA RST 篇章树库

NLP 的远程监督算法

如何在无人情况下对另一台电脑进行远程操作?

无监督学习在反欺诈中的应用

第十六届智能车竞赛线上全国总决赛远程组委会监督腾讯会议