DCMN+: Dual Co-Matching Network for Multi-choice Reading Comprehension

Posted Facico

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DCMN+: Dual Co-Matching Network for Multi-choice Reading Comprehension相关的知识,希望对你有一定的参考价值。

DCMN+: Dual Co-Matching Network for Multi-choice Reading Comprehension

RACE数据集特点:答案可能不在给定的阅读材料中,这样需要模型更加深度地理解阅读材料

  • 基于bert的以往做法:
    • 把(question,choice)连在一起看成一个句子,然后和passage做匹配
    • 缺点:
      • 这样question和choice之间没有交互信息
      • 上述流程相当于:先让passage和question做匹配,计算结果再和choice做匹配。但选项和问题应当是同样重要的,让question和passage做匹配很可能没有意义(如问题问的比较抽象时)

所以论文把他们都看成一个句子

embedding layer

Passage:P,Question:Q,A表示一个choice
H p = B E R T ( P ) H p ∈ R P × l H q = B E R T ( Q ) H q ∈ R Q × l H a = B E R T ( A ) H a ∈ R A × l ∣ P ∣ , ∣ Q ∣ , ∣ A ∣ 是 s e q l e n , l 是 h i d d e n s t a t e H^p = BERT(P) \\quad H^p \\in R^P \\times l \\\\ H^q = BERT(Q) \\quad H^q \\in R^Q \\times l\\\\ H^a = BERT(A) \\quad H^a \\in R^A \\times l\\\\ |P|,|Q|,|A|是seq len,l是hidden state Hp=BERT(P)HpRP×lHq=BERT(Q)HqRQ×lHa=BERT(A)HaRA×lP,Q,Aseqlenlhiddenstate

  • 这里的BERT也可以是其他的encode模型,论文中使用的是BERT

1、Passage Sentence Selection

  • 要从文章选出和问题最相关的句子,这里就算文章 P = p 1 , p 2 , . . . , p n P=\\p_1,p_2,...,p_n\\ P=p1,p2,...,pn中每个句子和问题、选项的分数
    • top K的句子会被选择
    • 选择完的句子集合 P S P_S PS

对于每个三元组 p i , Q , A \\p_i,Q,A\\ pi,Q,A,通过下面两个方法来计算分数,这里计算PQ和PA之间的分数

余弦距离

  • 对于Q和A分别计算cos,再经过maxpooling后求均值

双线性距离

  • 通过线性降维来得到分数

2、Answer Option Interaction

  • 这里引入答案选项(A之间)之间的交互信息,使得每个答案融入相对于其他答案的比较信息

这里在任意两个选项之间构建双线性表示,下面是 A i A_i Ai A j A_j Aj之间的,最后使用门控机制进行信息融合

最后 O = H o 1 , . . . , H o m O=\\H^o_1,...,H^o_m\\ O=Ho1,...,Hom作为答案选择表示

3、Bidirectional Matching

这里三元组根据上两步从 ( P , Q , A ) (P,Q,A) (P,Q,A)变为 ( P S , Q , O ) (P_S,Q,O) (PS,Q,O)

  • 计算 ( P S , Q , O ) (P_S,Q,O) (PS,Q,O)三元组中所有的两元组的双相匹配信息

以QO的比配信息为例:

目标函数

这里得到 ( P S , Q , O ) (P_S,Q,O) (PS,Q,O)之间的双向表示 M p − q , M p − o , M q − o M^p-q,M^p-o,M^q-o Mpq,Mpo,Mqo之后,拼接得到最后的表示 C ∈ R 3 l C\\in R^3l CR3l

然后根据C来计算可能的答案 A k A_k Ak,m是答案的数量

效果

- 在large上提升了3个点

这篇文章只改动了fine-tunning的部分,虽然感觉双向匹配的部分有点生硬,但是还是带来的不错的效果

  • 为什么不构建一些attention样式的东西来实现呢

以上是关于DCMN+: Dual Co-Matching Network for Multi-choice Reading Comprehension的主要内容,如果未能解决你的问题,请参考以下文章

POJ - 3469 Dual Core CPU (最小割)

[POJ3469]Dual Core CPU(最小割)

洛谷 P1207 [USACO1.2]双重回文数 Dual Palindromes

poj 3469 Dual Core CPU——最小割

[VijosP1764]Dual Matrices 题解

POJ 3469 Dual Core CPU(最小割)