[论文阅读笔记01]DOI:10.18653/v1/2021.acl-long.73
Posted AIplusX
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[论文阅读笔记01]DOI:10.18653/v1/2021.acl-long.73相关的知识,希望对你有一定的参考价值。
注:以下英翻中均为我自己理解之后的翻译,如有不恰当之处欢迎在评论区指出
名词缩写
AMR: Abstract Meaning Representation 抽象语义
MTL: multi-task learning 多任务学习
NLP:Natural language processing 自然语言处理
概要
抽象语义研究现在相较于其他NLP研究还没有那么成熟,但是现在英语的AMR数据集和英语翻译成其他语言的数据集日益完善完善,在这个条件下,作者提出了一种全新的可用于零次学习的AMR语义分析和AMR的文本转换的跨语言的多任务学习方法。同时,基于恰当的预训练模型,作者探索了4种不同的微调方式:普通微调,one-for-all多任务微调,有目标多任务微调,teacher-student多任务微调对于上述方法的影响。实验证明,作者的方法在不同验证集下使用不同的微调方法都得到了较大的提升。
介绍
这一部分主要指出了作者做出了如下贡献:
1:针对零次学习和AMR文本生成方法,作者提出了一种有效的跨语言预训练方法;
2:探索和比较了不同的预训练方法,提出了一种实验所用数据集里能获得最好效果的teacher-studen-based预训练方法;
3:评估了基于AMR的零次学习方法,并且证明自己的方法很大程度上提高了目前的技术。
• We propose an effective cross-lingual pre-training approach for zero-shot AMR parsing and AMR-to-text generation. Our pre-trainedmodels could be used for both AMR parsing and AMR-to-text generation.
• We explore and compare different fine-tuning methods. We also propose a teacher-student-based fine-tuning method that achieves the best performance.
• We evaluate our approach in three zero-shot languages of AMR and our approach greatly advances the state of the art.
相关工作
英语AMR语法分析
AMR语义分析是将句子翻译成直接的、无环的图。根据模型结构的不同,之前的英语的AMR语义分析工作可以被分成若干种类:
1:基于树的方法;
2:基于图的方法;
3:基于转移的方法;
4:seq2seq方法;
5:seq2graph方法;
英语的AMR转文本生成
大部分研究都在着眼于英语的AMR研究,那么其他语言的AMR研究就会相应的减弱一些,因为数据集是需要在研究过程中不断丰富的。最近有学者提出简化版的AMR不单单是只用在英语上,还可以用作跨语言的语义分析。有学者就利用大规模的AMR数据搭建了不同语言之间的桥梁并且获得了巨大的成功,也有学者利用了带注释的英语AMR克服了目标语言数据集不足的问题,还有学者探索了基于预训练过的跨语言模型实现的跨语言的AMR转文本。
Till lately , Damonte and Cohen (2018) demonstrate that a simplified AMR can be used across languages and for the first time they study cross-lingual AMR parsing for languages rather than English. Blloshmi et al. (2020) employ large-scale silver parallel AMR data to bridge the gap between different languages and greatly advance the performance of cross-lingual AMR parsing. Sheth et al. (2021) explore annotation projection to leverage existing English AMR and overcome resource shortage in the target language. Furthermore, Fan and Gardent (2020) explore cross-lingual AMR-to-text based on pre-trained cross-lingual language model (XLM) (Lample and Conneau, 2019).
在这篇文章中,作者为AMR语义分析和AMR转文本设计了一种完善的跨语言预训练模型,并且在预训练时不需要特殊的语言包。
跨语言的预训练
背景
作者的模型是基于Transformer的,在方式上作者使用了Noord和Bos提供的线性化AMR图和AMR图的恢复方法。
跨语言的预训练
因为稀有的德语AMR语义和AMR转文本的数据集,作者以英语作为过渡点,希望能在处理英语数据集的时候获得处理德语相关部分的知识。给定编码器和解码器的数据集(),作者使用一个在带注释的英语AMR2.0上训练得出的英语AMR的语义分析器从语法上分析AMR图上的英语句子,因此获得了一个2维的数据集()。
之后在这个3维的数据集中,作者提出了凭借多任务学习的跨语言预训练方法,作者考虑了AMR语义分析,AMR转文本和机器翻译这3种任务。
AMR语义分析任务
同时包含了都是在()编码器端的英语数据集和解码器端的德语数据集
AMR转文本任务
同时包含英语和德语的AMR转文本。类似于AMR语义分析,上述两个任务都是在silver AMR图上训练得到的()()
机器翻译任务
同时包含在数据集()上的英翻德和德翻英任务。
联合多任务预训练
作者利用现有的方法去训练上述的6个数据集,而且在语句前面加上的标记去区分输入和输出。
作者的联合多任务预训练是基于标准的联合多任务预训练,在训练阶段,作者轮流加载上述的预训练数据集,而且根据作者的实验,加载数据集的不同顺序对最终模型的影响是可以忽略的。
微调方法
为了微调预训练模型,作者建立了一个从带注释的的英语AMR分出来的微调数据集。给定英语AMR数据集(),作者使用了英翻德翻译器将英语句子翻译成
德语句子,因此获得了3维数据集()。因为作者的任务是提升零次学习的AMR语义分析和AMR转文本能力,所以作者最初的微调任务是德语AMR语义分析和AMR转文本,而且在需要的时候作者可以将另外4种微调任务作为备选任务(英语AMR语义分析,英语AMR转文本,英翻德,德翻英)。
当微调数据集准备时就可以用不同的方法微调预训练模型。
普通的微调方法
给定一个预训练模型,普通的微调方法就是按照唯一的顺序去训练模型。
on-for-All多任务的微调方法
作者将同步6个数据集的微调任务,相关研究已经表明保存各个任务的表现可以很大程度上提高最初的微调任务。保存不同预训练模型的任务可以看成是将每个预训练任务的正则化。微调的时候,就像联合预训练一样,作者按顺序将预训练数据导入到预训练模型种,最终就可以得到所有任务的微调模型。
带目标的多任务学习微调
相较于使用单个模型进行训练,作者选择了相关的预训练模型作为备选任务的方法。以德语语义分析为例,作者将德转英作为备选的微调任务,这个备选的任务可以帮助德语语义分析在encoder阶段可以更好的捕捉德语语句的语法内容。
Teacher-Student-based多任务学习微调
德语句子数据集的一个值得注意的点就是他是由机器翻译得出的,因此他就会包含较多的噪声,这就会对最终的微调模型的表现产生负影响。作者就提出了一种方法,作者利用英语AMR语义分析去帮助德语AMR语义分析,因为英语AMR分析噪声相对较少一些。
德语AMR语义分析的微调
作者使用(E,G,A)代表英语部分,德语部分,AMR部分,同时使用(e,g,a)作为3个个例。德语AMR语义分析就是(G -> A),作者把英语AMR(E -> A)作为德语AMR的teacher,同时假设g生成的ai应该与e的相关部分是相近的,给定已经获得的部分AMR。
在这个假设上,student模型可以获得知识,通过在英语AMR应用词语级别的知识从而可以得出多级别的交叉熵和下面这个联合公式:
(e,g,a)属于(E,G,A),也就是(),也就是英语/德语AMR的语义分析数据。。。指代已经英语AMR语义分析中学习得到模型参数,。。指代对数函数,为了将g翻译成a,函数J的定义是:
KL(·||·)指代KL分歧,在这2个分类中,va是词汇集。
总的来说,在MTL微调中作者使用公式1做了德语AMR微调任务的对象,同时作者使用对数函数作为备用的微调任务也就是德翻英的公式。
德语AMR转文本微调
论文实验
实验结果
讨论
结论
引用
以上是关于[论文阅读笔记01]DOI:10.18653/v1/2021.acl-long.73的主要内容,如果未能解决你的问题,请参考以下文章
论文阅读笔记《CAsT-19: A Dataset for Conversational Information Seeking》
论文阅读笔记《CAsT-19: A Dataset for Conversational Information Seeking》