论文笔记 用于事件抽取与生成的预训练语言模型

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文笔记 用于事件抽取与生成的预训练语言模型相关的知识,希望对你有一定的参考价值。

参考技术A 本文主要复述论文["Exploring Pre-trained Language Models for Event Extraction and Generation"] 的内容,以便自我回顾,也希望可以给大噶带来帮助~

这篇文章研究事件抽取的角度是从有标签的训练数据描述的,以往的EE任务依赖于人工标注数据,而不充分的训练数据会影响模型的效果。文章采用了一个预训练语言模型来提取事件触发词,通过角色预测分离方法来处理角色抽取任务中的角色重叠问题,并利用Bert模型的Masked LM来自动生成标签数据。该模型在ACE05数据集上的表现,事件抽取任务上达到了81.1%的F1值,角色抽取任务上达到了58.9%的F1值。

ACE05数据集上10%的事件有角色重叠问题,例句 The explosion killed the bomber and three shoppers 中 killed 触发事件 ,元素 the bomber 既可以触发角色 ,又有角色 。之前的工作中会将该元素第一次被预测到的角色类型判定为分类好的角色标签,而没有考虑该角色在多个角色类型中的概率。

监督学习下的事件抽取依赖于大量人工标注的数据集,而ACE数据集当中给出的事件标签数量有限。为了解决这一问题,之前也有工作通过远程监督的方法来生成事件类型标签扩充训练集,但这一方法也是依赖于源数据集的数量与质量。

论文提出了预训练语言模型,利用从语料库中获得的知识来进行事件生成。预训练语言模型包括事件抽取模型与角色抽取模型,角色重叠问题通过计算角色类型与事件类型之间的关系,来重置角色分类的概率值。事件类型标签也是通过这个预训练语言模型实践,将原训练集作为样本,通过参数替换和辅助token重置这两步生成新的事件类型。

事件抽取部分是直接用Bert模型得到词向量表示,最后加个分类器完成触发词的提取。值得说明的是,这里每个token的输入由三部分组成: word embedding + segment + position ,整个模型基于句子级别,这里的 segments 设为0。其他设定则与Bert保持一致。

对于第一阶段提取到的触发词,这里会提取与其相关的成分的所有可能角色。作者总结的元素提取有三个难点:1.元素对触发词的依赖性;2.元素大多由长名词短语构成;3.角色重叠。模型框架设定与前一阶段相似,也是需要注意的一点:特征表示输入的 segment 将触发词所在的span设为1。
分类器则是设为所有角色标签的集合,即为对每个元素判断所有角色类型的概率,并在其分类器上设置一个二元组,用来判定该角色下的token的span,该跨度由 (start, end) 组成。通过对每种可能的角色标签进行计算,改善角色重叠问题。

判定角色的span,也就是如何更准确得到每个token的 (start, end) 域值。首先,对于每一个token ,经softmax分别计算在角色 下的起始点的概率 与结束点的概率 :

论文中处理一个元素有多种角色时应该被分类的角色标签,依据了同一事件中每种角色出现的可能性会大不相同这一事实。因此文中给出了当前角色在一个事件中的重要性判定条件:RF-IEF(这一定义与词频的TF-IDF类似),。由这一指标可以得到角色 在事件类型 中的重要程度 :

生成新的标签是将原有数据集作为样本,通过模型学习到新的之前没有标签的词并加入到训练集中,以起到扩充语料的作用。这里是采用了Bert的Mask预训练方法,通过两个步骤:1.句中的元素替换为有相同角色标签的其他元素;2.利用Bert的fine-tune替换触发词的辅助token。这里需要注意的几点:
1.辅助token是原有样本数据集里未被识别成触发词或角色的token,除了词、数字,还可以包括标点。
2.元素替换是将具有相同角色标签的元素进行代换。因此需要预先统计所有的实体以及对应标签构成 arg : role 字典集,并且这个字典集不包括有角色重叠的元素。
3.这里的数据集扩充并非给没有标签的数据加上标签,而是保持触发词与角色的个数不变,通过辅助元素的替换将触发词与角色所在句子的成分做更改,获得同样有标签的句子,以达到数据集的扩充。

这篇论文比较有趣的一点是他统计了所有角色与事件类型之间的关系RF-IEF,虽然相较于以前的工作,这里会需要把多种不同标签都给计算一遍,但通过人为处理也是一个不错的选择。我认为理解这篇文章的难度在于需要掌握Bert的原理,由于我之前也没好好研究过这个,所以看起来也特别费劲,事实证明Bert是真的很优秀,这里的触发词识别与分类模块就将F1值提高了10个百分点。句子生成这块我觉得也是和Bert的Masked预训练原理结合的很巧妙,大多与Bert有关的我就没有描述了,这里贴一个 Bert模型讲解 ,可以迅速上手~
还是新手,水平有限,若有错误还望不吝赐教~

论文泛读94用于文本生成的预训练语言模型:一项调查

贴一下汇总贴:论文阅读记录

论文链接:《Pretrained Language Models for Text Generation: A Survey》

一、摘要

文本生成已成为自然语言处理(NLP)中最重要但又具有挑战性的任务之一。深度学习的兴起通过神经生成模型,尤其是预训练语言模型(PLM)的范例,极大地推动了该领域的发展。在本文中,我们概述了用于文本生成的PLM主题中取得的主要进展。首先,我们介绍了常规任务定义,并简要介绍了用于文本生成的PLM的主流体系结构。作为核心内容,我们讨论了如何使现有的PLM适应于对不同的输入数据进行建模并满足生成的文本中的特殊属性。我们进一步总结了几种重要的用于文本生成的微调策略。最后,我们提出了几个未来的方向并总结了本文。

二、结论

本文综述了文本生成预处理语言模型的最新进展。我们主要总结了PLMs在建模输入的不同数据类型和满足输出的特殊文本属性方面的扩展。我们还讨论了几种有用的文本生成微调策略。

为了推进这一领域,有几个有前途的未来方向应用于文本生成。

  • 模型扩展。尽管在第3节中提出了各种扩展,但预处理和下游生成任务之间仍然存在差异。例如,预处理阶段的“[MASK]”标记将不会在微调阶段使用,这进一步加剧了预处理-微调差异。因此,它进一步希望为文本生成设计一个合适的预处理范例。此外,在预训练期间将外部知识引入到PLMs中已被证明是有效的[张等人,2019c],并且研究如何将相关知识注入到文本生成是有希望的。
  • 可控生成。PLMs可控文本生成是一个有趣的方向,但仍处于非常早期的阶段。控制生成文本的一些属性有许多有用的应用,例如在对话系统中对抑郁症患者产生积极的反应。然而,产品生命周期管理通常在通用语料库中进行预处理,这很难控制生成文本的多粒度属性(例如,情感、主题和连贯性)。Keskar等人[2019]探索了带有控制代码的文本生成,这些代码控制样式、内容和特定任务的行为。而这些控制代码是预先设定的、粗粒度的。未来的工作可以探索多粒度控制,并开发具有足够可控性的产品生命周期管理。
  • 模型压缩。尽管具有大规模参数的产品生命周期管理系统在文本生成方面已经取得了成功,但是这些模型在资源受限的环境中部署仍然具有挑战性。因此,研究如何用少量的参数实现竞争绩效是有意义的。已经提出了几种压缩PLMs的方法,如参数共享[兰等人,2020]和知识提取[桑等人,2019],而其中大多数集中在基于BERT的模型上,很少关注压缩PLMs用于文本生成。
  • 微调探索。预处理的直接目的是将在产品生命周期管理系统中学习到的语言知识提炼到下一代任务中。微调是目前主要的传递方法。可能有各种方法将知识从产品生命周期管理系统转移到下游模型。例如,陈等人[2020a]采用BERT作为教师模型,香草代模型作为学生模型,对知识提炼进行了探索。通过这种方法,BERT的语言知识可以被提取到下游模型中。
  • 语言无关的PLMs。如今,几乎所有用于文本生成的PLM都主要基于英语。这些PLM在处理非英语生成任务时会遇到挑战。因此,与语言无关的计划语言是值得研究的,它需要捕捉跨不同语言的通用语言和语义特征。一个有趣的方向是如何重用现有的基于英语的PLM来生成非英语语言的文本。
  • 伦理关怀。目前,产品生命周期管理系统是在没有精细过滤的情况下从网络上抓取的大规模语料库上进行预处理的,这可能会导致道德问题,例如生成关于用户的私人内容。因此,研究人员应尽最大努力防止误用PLMs。为此,我们可以遵循Blank [2011]提供的关键步骤,例如识别威胁和潜在影响以及评估可能性。此外,PLMs生成的文本可能存在偏见,这与训练数据在性别、种族和宗教维度上的偏见是一致的[布朗等人,2020]。因此,我们应该干预计划生育,以防止这种偏见。对一般方法的研究是广泛的,但对产品生命周期管理仍然是初步的。

三、tips

这是一篇综述性论文,主要内容是关于预训练语言模型(PLM)的,总结了PLMs在建模输入的不同数据类型和满足输出的特殊文本属性方面的扩展,如果是进行这个领域的研究,这篇文章可以好好读一下~

以上是关于论文笔记 用于事件抽取与生成的预训练语言模型的主要内容,如果未能解决你的问题,请参考以下文章

论文泛读171具有对抗性扰动的自监督对比学习,用于鲁棒的预训练语言模型

论文泛读171具有对抗性扰动的自监督对比学习,用于鲁棒的预训练语言模型

论文泛读154ERNIE 3.0:大规模知识增强语言理解和生成的预训练

BERT论文翻译:用于语言理解的深度双向Transformer的预训练

论文泛读74Lawformer:中国法律长文件的预训练语言模型

论文笔记OPTIPROMPT:用prompt提取预训练模型中的客观事实