17.2融合关键词的文本增强
Posted 炫云云
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了17.2融合关键词的文本增强相关的知识,希望对你有一定的参考价值。
基于注意编解码器模型的神经网络模型具有较好的摘要能力。然而,这些模型在生成过程中难以控制,导致摘要缺乏关键信息。提出了一种将抽取方法和生成方法相结合的指导生成模型。首先,通过抽取模型从文本中获取关键词。然后,引入关键信息引导网络(KIGN)1,将关键词编码成关键信息表征,以指导关键信息的生成过程。此外,我们还采用了一种预测-引导机制,引导主要体现在两个方面:注意机制和指针机制。该机制可以获得未来解码的长期值,从而进一步指导摘要的生成。
现有的句子摘要研究忽略了输入句子中的关键词能够为有价值的内容提供重要线索,人类倾向于根据这些关键词撰写摘要。本文提出了一种co-selective2的句子摘要方法,即在序列到序列模型中,将关键词引导信号应用于编码器和解码器。采用多任务学习框架,共同学习提取关键词和生成输入句子摘要。 通过研究输入句子和关键词之间的相互作用,应用关键词引导的选择性编码策略来过滤源信息。通过双注意和双复制机制对指针生成网络进行了扩展,该网络可以将输入句和关键词的语义结合起来,同时从输入句和关键词中复制单词。
解码器隐藏更新:
s
t
=
f
d
e
(
s
t
−
1
,
e
(
y
t
−
1
)
,
c
t
,
c
t
k
w
)
\\mathbf{s}_{t}=f_{d e}\\left(\\mathbf{s}_{t-1}, \\mathbf{e}\\left(y_{t-1}\\right), \\mathbf{c}_{t}, \\mathbf{c}_{t}^{k w}\\right)
st=fde(st−1,e(yt−1),ct,ctkw)
知识注意力上下文向量:
c
t
k
w
=
∑
j
=
1
∣
K
∣
α
t
j
k
j
,
α
t
j
=
exp
(
η
(
s
t
−
1
,
k
j
)
)
∑
j
′
=
1
∣
K
∣
exp
(
η
(
s
t
−
1
,
k
j
′
)
)
\\quad \\mathbf{c}_{t}^{k w}=\\sum_{j=1}^{|K|} \\alpha_{t j} \\mathbf{k}_{j}, \\\\\\alpha_{t j}=\\frac{\\exp \\left(\\eta\\left(\\mathbf{s}_{t-1}, \\mathbf{k}_{j}\\right)\\right)}{\\sum_{j^{\\prime}=1}^{|K|} \\exp \\left(\\eta\\left(\\mathbf{s}_{t-1}, \\mathbf{k}_{j}^{\\prime}\\right)\\right)}
ctkw=j=1∑∣K∣αtjkj,αtj=∑j′=1∣K∣exp(η(st−1,kj′))exp(η(st−1,kj))
为第
t
t
t时刻的关键词感知注意,
k
j
\\mathbf{k}_{j}
kj表示第
j
j
j 个被提取/分配的关键词的嵌入,
K
K
K是所有被提取/分配的关键词的集合。
自动文章评论有助于鼓励在线新闻平台上的用户参与和互动。然而,对于传统的基于编码器-解码器的模型来说,新闻文档通常太长,这通常会导致一般性和不相关的评论。提出用graph-to-seq3模型生成评论,该模型将输入新闻建模为主题交互图。通过将文章组织成图形结构,模型可以更好地理解文章的内部结构和主题之间的联系,从而更好地理解故事。在线新闻平台腾讯快宝上收集并发布了大规模的新闻评论语料库。
解码器隐藏更新:
s
t
=
f
d
e
(
s
t
−
1
,
e
(
y
t
−
1
)
,
c
t
,
c
t
k
w
g
)
\\mathbf{s}_{t}=f_{d e}\\left(\\mathbf{s}_{t-1}, \\mathbf{e}\\left(y_{t-1}\\right), \\mathbf{c}_{t}, \\mathbf{c}_{t}^{k w g}\\right)\\\\
st=fde(st−1,e(yt−1),ct,ctkwg)
知识注意力上下文向量:
c
t
k
w
g
=
∑
u
∈
U
k
w
g
α
(
u
)
u
,
α
(
u
)
=
exp
(
η
(
s
t
−
1
,
u
)
)
∑
u
′
∈
U
k
w
g
exp
(
η
(
s
t
−
1
,
u
′
)
)
\\mathbf{c}_{t}^{k w g}=\\sum_{u \\in \\mathcal{U}_{k w g}} \\alpha(u) \\mathbf{u}, \\\\\\alpha(u)=\\frac{\\exp \\left(\\eta\\left(\\mathbf{s}_{t-1}, \\mathbf{u}\\right)\\right)}{\\sum_{u^{\\prime} \\in \\mathcal{U}_{k wg}} \\exp \\left(\\eta\\left(\\mathbf{s}_{t-1}, \\mathbf{u}^{\\prime}\\right)\\right)}
ctkwg=u∈Ukwg∑α(u)u,α(u)=∑u′∈Ukwgexp(η(st−1,u′))exp(η(st−1,u))
c
t
k
w
g
\\mathbf{c}_{t}^{k w g}
ctkwg是关键词图在时间步长
t
t
t时的感知注意;
U
k
w
g
\\mathcal{U}_{k w g}
Ukwg是关键词图中节点的集合;
u
\\mathbf{u}
u是节点嵌入(通常从图神经网络获得)。
KIGN
我们从注意机制和指针机制两个方面提出关键信息引导网络来引导生成过程。具体来说,我们使用TextRank算法从文本中提取关键字。
图
1
图1
图1
如图1所示,将关键字逐一输入到关键信息引导网络
BiGRU中,然后将最后一个前向隐藏状态
h
←
n
\\stackrel{\\leftarrow}{h}_{n}
h←n和后向隐藏状态
h
←
1
\\stackrel{\\leftarrow}{h}_{1}
h←1连接做为关键信息表征
k
k
k:
k
=
[
h
←
1
h
⃗
n
]
k=\\left[\\begin{array}{l} \\overleftarrow{h}_{1} \\\\ \\vec{h}_{n} \\end{array}\\right]
k=[h1hn]
- 注意机制:
传统的注意机制仅利用解码器状态作为查询,获取编码器隐藏状态的注意分布,难以识别关键字。我们将关键信息表征
k
k
k作为注意机制的额外输入,将Seq2seq 中的方程改变为:
e
t
i
=
v
T
tanh
(
W
h
h
i
+
W
s
s
t
+
W
k
k
)
(1)
e_{t i}=v^{T} \\tanh \\left(W_{h} h_{i}+W_{s} s_{t}+W_{k} k\\right)\\tag{1}
多标签文本分类《融合注意力与CorNet的多标签文本分类》