论文阅读笔记：Multi-Labeled Relation Extraction with Attentive Capsule Network（AAAI-2019）

Posted 2021-08-01 梆子井欢喜坨

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文阅读笔记：Multi-Labeled Relation Extraction with Attentive Capsule Network（AAAI-2019）相关的知识，希望对你有一定的参考价值。

在这里插入图片描述

论文信息

作者：

Xinsong Zhang Shanghai Jiao Tong University
Pengshuai Li Shanghai Jiao Tong University
Weijia Jia University of Macau & Shanghai Jiao Tong University
Hai Zhao Shanghai Jiao Tong University

论文来源：

AAAI-2019

论文引用：

Zhang X, Li P, Jia W, et al. Multi-labeled relation extraction with attentive capsule network[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 7484-7491.

论文链接：

https://ojs.aaai.org/index.php/AAAI/article/view/4739

摘要：

从一个句子中揭示重叠的多重关系仍然具有挑战性。目前大多数神经网络模型的工作都不方便地假设每个句子都显式地映射到一个关系标签上，不能正确地处理多个关系，因为这些关系的重叠特征要么被忽略，要么很难识别。针对这一问题，本文提出了一种新的基于胶囊网络的多标记关系提取方法，该方法在识别单个句子中高度重叠的关系方面，比现有的卷积或递归网络具有更好的性能。为了更好地进行特征聚类和关系提取，我们进一步设计了基于注意力机制的路由算法和一种sliding-margin损失函数，并将其嵌入到胶囊网络中。实验结果表明，该方法确实能够提取出高度重叠的特征，与现有的方法相比，关系提取的性能有了显著的提高。

1. 动机

之前的基于神经网络的RE模型，在句子有多个关系标签的情况下效果不佳。

由于以下两个缺点，在提取高度重叠和离散的关系特征时面临挑战。

首先，一个实体对可以在一个句子中表达多个关系，这将严重混淆关系抽取器。之前的工作大多都是用CNN、RNN之类的神经网络来提取low-level的特征，然后用max-pooling、word attention之类的方法来将low-level的特征映射到high-level的特征。但是对于多分类问题来说，一个sentence里面会有很多overlap的relation特征，难以明确识别。一个高层次的关系向量还不足以准确表达多个关系。
其次，现有的方法忽略了关系特征的离散化。例如，如图1所示，所有的句子都用离散分布在句子中的几个有意义的单词(图中标记为斜体)来表达它们之间的关系。而常用的神经网络方法处理结构固定的句子，很难收集到不同位置的关系特征。作者认为现存的方法，不足以聚集这些离散token的信息。

在这里插入图片描述
在本文中，为了提取重叠和离散的关系特征，我们提出了一种利用关注胶囊网络进行多标签关系提取的方法。如上图所示，所提出方法的关系提取器由三个主要层构成，即特征提取、特征聚类和关系预测。第一种提取低层次语义。第二层将低层次特征聚类成高层次关系表示，最后一层预测每个关系表示的关系类型。

胶囊网络(Capsule)是用来表达特征的一小组神经元。它的总长度表示特征的重要性，胶囊(向量)的方向表示特征的特定属性。

首先通过聚类关系特征将胶囊网络应用于多标签关系抽取。
我们提出了一种基于注意力的路由算法来精确提取关系特征，并提出了一种滑动边界损失函数来很好地学习多种关系。
我们在两个基准上的实验表明，我们提出方法的性能达到了新的sota。

we propose a sliding-margin loss function to address the problem of “no relation” in multiple labels scenario. A sentence is classified as “no relation” only when the probabilities for all the other specific classes are below a boundary. The boundary is dynamically adjusted in the training process.

2. 模型与算法

2.1 模型总体结构

在这里插入图片描述

Feature Extracting Layer：用Bi-LSTM来抽取low-level的语义特征。
Feature Clustering Layer：这个模块的目的是为了在low-level的特征中选择出对关系有用的特征，聚合到high-level特征。其实就是为了解决overlapped and discrete relation feature。
Relation Predicting Layer：在这里对关系进行预测分类。