论文泛读94用于文本生成的预训练语言模型:一项调查

Posted 及时行樂_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读94用于文本生成的预训练语言模型:一项调查相关的知识,希望对你有一定的参考价值。

贴一下汇总贴:论文阅读记录

论文链接:《Pretrained Language Models for Text Generation: A Survey》

一、摘要

文本生成已成为自然语言处理(NLP)中最重要但又具有挑战性的任务之一。深度学习的兴起通过神经生成模型,尤其是预训练语言模型(PLM)的范例,极大地推动了该领域的发展。在本文中,我们概述了用于文本生成的PLM主题中取得的主要进展。首先,我们介绍了常规任务定义,并简要介绍了用于文本生成的PLM的主流体系结构。作为核心内容,我们讨论了如何使现有的PLM适应于对不同的输入数据进行建模并满足生成的文本中的特殊属性。我们进一步总结了几种重要的用于文本生成的微调策略。最后,我们提出了几个未来的方向并总结了本文。

二、结论

本文综述了文本生成预处理语言模型的最新进展。我们主要总结了PLMs在建模输入的不同数据类型和满足输出的特殊文本属性方面的扩展。我们还讨论了几种有用的文本生成微调策略。

为了推进这一领域,有几个有前途的未来方向应用于文本生成。

  • 模型扩展。尽管在第3节中提出了各种扩展,但预处理和下游生成任务之间仍然存在差异。例如,预处理阶段的“[MASK]”标记将不会在微调阶段使用,这进一步加剧了预处理-微调差异。因此,它进一步希望为文本生成设计一个合适的预处理范例。此外,在预训练期间将外部知识引入到PLMs中已被证明是有效的[张等人,2019c],并且研究如何将相关知识注入到文本生成是有希望的。
  • 可控生成。PLMs可控文本生成是一个有趣的方向,但仍处于非常早期的阶段。控制生成文本的一些属性有许多有用的应用,例如在对话系统中对抑郁症患者产生积极的反应。然而,产品生命周期管理通常在通用语料库中进行预处理,这很难控制生成文本的多粒度属性(例如,情感、主题和连贯性)。Keskar等人[2019]探索了带有控制代码的文本生成,这些代码控制样式、内容和特定任务的行为。而这些控制代码是预先设定的、粗粒度的。未来的工作可以探索多粒度控制,并开发具有足够可控性的产品生命周期管理。
  • 模型压缩。尽管具有大规模参数的产品生命周期管理系统在文本生成方面已经取得了成功,但是这些模型在资源受限的环境中部署仍然具有挑战性。因此,研究如何用少量的参数实现竞争绩效是有意义的。已经提出了几种压缩PLMs的方法,如参数共享[兰等人,2020]和知识提取[桑等人,2019],而其中大多数集中在基于BERT的模型上,很少关注压缩PLMs用于文本生成。
  • 微调探索。预处理的直接目的是将在产品生命周期管理系统中学习到的语言知识提炼到下一代任务中。微调是目前主要的传递方法。可能有各种方法将知识从产品生命周期管理系统转移到下游模型。例如,陈等人[2020a]采用BERT作为教师模型,香草代模型作为学生模型,对知识提炼进行了探索。通过这种方法,BERT的语言知识可以被提取到下游模型中。
  • 语言无关的PLMs。如今,几乎所有用于文本生成的PLM都主要基于英语。这些PLM在处理非英语生成任务时会遇到挑战。因此,与语言无关的计划语言是值得研究的,它需要捕捉跨不同语言的通用语言和语义特征。一个有趣的方向是如何重用现有的基于英语的PLM来生成非英语语言的文本。
  • 伦理关怀。目前,产品生命周期管理系统是在没有精细过滤的情况下从网络上抓取的大规模语料库上进行预处理的,这可能会导致道德问题,例如生成关于用户的私人内容。因此,研究人员应尽最大努力防止误用PLMs。为此,我们可以遵循Blank [2011]提供的关键步骤,例如识别威胁和潜在影响以及评估可能性。此外,PLMs生成的文本可能存在偏见,这与训练数据在性别、种族和宗教维度上的偏见是一致的[布朗等人,2020]。因此,我们应该干预计划生育,以防止这种偏见。对一般方法的研究是广泛的,但对产品生命周期管理仍然是初步的。

三、tips

这是一篇综述性论文,主要内容是关于预训练语言模型(PLM)的,总结了PLMs在建模输入的不同数据类型和满足输出的特殊文本属性方面的扩展,如果是进行这个领域的研究,这篇文章可以好好读一下~

以上是关于论文泛读94用于文本生成的预训练语言模型:一项调查的主要内容,如果未能解决你的问题,请参考以下文章

论文泛读171具有对抗性扰动的自监督对比学习,用于鲁棒的预训练语言模型

论文泛读154ERNIE 3.0:大规模知识增强语言理解和生成的预训练

论文泛读74Lawformer:中国法律长文件的预训练语言模型

论文笔记 用于事件抽取与生成的预训练语言模型

论文泛读157文本分类数据增强调查

论文泛读115多样化的预训练上下文编码改进了文档翻译