IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation

Posted Facico

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation相关的知识,希望对你有一定的参考价值。

IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation

大致流程

  • 1、Matching:在目标语料库构造语义相似的伪平行样本
  • 2、使用seq2seq类的模型,学习一个文本生成器
  • 3、通过细化对齐中不完善的部分,迭代反复提高transfer的功能

1、Matching

在第0( t = 0 t=0 t=0)次迭代时,通过在两个语料库中配对来构造伪平行样本 X ^ , Y ^ ( 0 ) \\hat X,\\hat Y^(0) X^Y^(0)
- 计算句子x和每个句子y的余弦相似度,取最高的
- 只在相似度大于阈值 γ \\gamma γ时保留句子对
- 所以 X ^ \\hat X X^表示能找到匹配的句子的集合,即 X X X的子集

t ≥ 1 t\\geq 1 t1

  • 在t-1次迭代的第三部得到的 Y ( t ) 来 匹 配 Y , 找 到 余 弦 相 似 度 最 相 似 的 , 得 到 Y^(t)来匹配Y,找到余弦相似度最相似的,得到 Y(t)Y M a t c h ( t ) Match^(t) Match(t)
  • 比较 Y ^ ( t ) \\hat Y^(t) Y^(t) M a t c h ( t ) Match^(t) Match(t),取与 X ^ \\hat X X^的WMD分数(word mover distance)较小的那个
  • 得到 Y ^ ( t ) \\hat Y^(t) Y^(t)

WMD

WMD用于测量内容从原句到重写内容的转化
W M D ( s a , s b ) = min ⁡ T ≥ 0 ∑ i , j = 1 n T i , j ⋅ c ( i , j ) WMD(s_a,s_b)=\\min_T\\geq 0\\sum_i,j=1^n T_i,j\\cdot c(i,j) WMD(sa,sb)=T0mini,j=1nTi,jc(i,j)

  • i in  s a , j in  s b \\texti in s_a,\\textj in s_b i in sa,j in sb
  • travel distance : T ( i , j ) \\texttravel distance:T(i,j) travel distanceT(i,j)
  • corresponding cost of "word travel" : c ( i , j ) \\textcorresponding cost of "word travel":c(i,j) corresponding cost of "word travel"c(i,j)
    由于已经构建了较好的伪平行语料,所以通过与原句的最小变化来最大限度的减少内容的转移

相对于句子相似性的其他标准:

  • 1、没有超参调整
  • 2、能适当处理句子长度不平衡的问题
  • 3、词级别
  • 4、有很高的准确性

2、Translation

  • t ≥ 0 t\\geq 0 t0时,用seq2seq模型,得到attention分数 M ( t ) M^(t) M(t)

3、Refinement

这里使用步骤2得到的attention分数 M ( t ) M^(t) M(t)来refine步骤1得到的 Y ^ ( t ) \\hat Y^(t) Y^(t)

  • 使用 M ( t ) M^(t) M(t)针对句子 x i ∈ X ^ x_i\\in \\hat X xiX^得到 t r a n s i ( t ) trans_i^(t) transi(t),并形成一个暂时的语料 T r a n s ( t ) Trans^(t) Trans(t)
  • 比较 W M D ( x i , y ^ i ) WMD(x_i,\\hat y_i) WMD(xi,y^i) W M D ( x i , t r a n s i ) WMD(x_i,trans_i) WMD(xi,transi),把较小的填进 Y ^ ( t + 1 ) \\hat Y^(t+1) Y^(t+1)

伪代码

以上是关于IMaT: Unsupervised Text Attribute Transfer via Iterative Matching and Translation的主要内容,如果未能解决你的问题,请参考以下文章

Unsupervised Text Generation by Learning from Search(TGLS)

Unsupervised Learning and Text Mining of Emotion Terms Using R

Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation

迁移学习(EADA)《Unsupervised Energy-based Adversarial Domain Adaptation for Cross-domain Text Classificat

unsupervised learning: K-means 算法

笔记:unsupervised domain adaptation by backpropagation