IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation
Posted Facico
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation相关的知识,希望对你有一定的参考价值。
IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation
大致流程
- 1、Matching:在目标语料库构造语义相似的伪平行样本
- 2、使用seq2seq类的模型,学习一个文本生成器
- 3、通过细化对齐中不完善的部分,迭代反复提高transfer的功能
1、Matching
在第0(
t
=
0
t=0
t=0)次迭代时,通过在两个语料库中配对来构造伪平行样本
X
^
,
Y
^
(
0
)
\\hat X,\\hat Y^(0)
X^,Y^(0)
- 计算句子x和每个句子y的余弦相似度,取最高的
- 只在相似度大于阈值
γ
\\gamma
γ时保留句子对
- 所以
X
^
\\hat X
X^表示能找到匹配的句子的集合,即
X
X
X的子集
在 t ≥ 1 t\\geq 1 t≥1
- 在t-1次迭代的第三部得到的 Y ( t ) 来 匹 配 Y , 找 到 余 弦 相 似 度 最 相 似 的 , 得 到 Y^(t)来匹配Y,找到余弦相似度最相似的,得到 Y(t)来匹配Y,找到余弦相似度最相似的,得到 M a t c h ( t ) Match^(t) Match(t)
- 比较 Y ^ ( t ) \\hat Y^(t) Y^(t)与 M a t c h ( t ) Match^(t) Match(t),取与 X ^ \\hat X X^的WMD分数(word mover distance)较小的那个
- 得到 Y ^ ( t ) \\hat Y^(t) Y^(t)
WMD
WMD用于测量内容从原句到重写内容的转化
W
M
D
(
s
a
,
s
b
)
=
min
T
≥
0
∑
i
,
j
=
1
n
T
i
,
j
⋅
c
(
i
,
j
)
WMD(s_a,s_b)=\\min_T\\geq 0\\sum_i,j=1^n T_i,j\\cdot c(i,j)
WMD(sa,sb)=T≥0mini,j=1∑nTi,j⋅c(i,j)
- i in s a , j in s b \\texti in s_a,\\textj in s_b i in sa,j in sb
- travel distance : T ( i , j ) \\texttravel distance:T(i,j) travel distance:T(i,j)
-
corresponding cost of "word travel"
:
c
(
i
,
j
)
\\textcorresponding cost of "word travel":c(i,j)
corresponding cost of "word travel":c(i,j)
由于已经构建了较好的伪平行语料,所以通过与原句的最小变化来最大限度的减少内容的转移
相对于句子相似性的其他标准:
- 1、没有超参调整
- 2、能适当处理句子长度不平衡的问题
- 3、词级别
- 4、有很高的准确性
2、Translation
- 在 t ≥ 0 t\\geq 0 t≥0时,用seq2seq模型,得到attention分数 M ( t ) M^(t) M(t)
3、Refinement
这里使用步骤2得到的attention分数 M ( t ) M^(t) M(t)来refine步骤1得到的 Y ^ ( t ) \\hat Y^(t) Y^(t)
- 使用 M ( t ) M^(t) M(t)针对句子 x i ∈ X ^ x_i\\in \\hat X xi∈X^得到 t r a n s i ( t ) trans_i^(t) transi(t),并形成一个暂时的语料 T r a n s ( t ) Trans^(t) Trans(t)
- 比较 W M D ( x i , y ^ i ) WMD(x_i,\\hat y_i) WMD(xi,y^i)和 W M D ( x i , t r a n s i ) WMD(x_i,trans_i) WMD(xi,transi),把较小的填进 Y ^ ( t + 1 ) \\hat Y^(t+1) Y^(t+1)
伪代码
以上是关于IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation的主要内容,如果未能解决你的问题,请参考以下文章
Unsupervised Text Generation by Learning from Search(TGLS)
Unsupervised Learning and Text Mining of Emotion Terms Using R
Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation
迁移学习(EADA)《Unsupervised Energy-based Adversarial Domain Adaptation for Cross-domain Text Classificat