论文阅读总结：UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)(

Posted 2020-11-26 gczr

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文阅读总结：UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)(相关的知识，希望对你有一定的参考价值。

概述：

UniLM是微软研究院在Bert的基础上，最新产出的预训练语言模型，被称为统一预训练语言模型。它可以完成单向、序列到序列和双向预测任务，可以说是结合了AR和AE两种语言模型的优点，Unilm在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了最优秀的成绩。

一、AR与AE语言模型

AR: Aotoregressive Lanuage Modeling，又叫自回归语言模型。它指的是，依据前面(或后面)出现的tokens来预测当前时刻的token，代表模型有ELMO、GTP等。

技术图片

AE:Autoencoding Language Modeling，又叫自编码语言。通过上下文信息来预测当前被mask的token，代表有BERT ，Word2Vec(CBOW)。

技术图片

AR 语言模型：

缺点：它只能利用单向语义而不能同时利用上下文信息。 ELMO 通过双向都做AR 模型，然后进行拼接，但从结果来看，效果并不是太好。
优点：对自然语言生成模型(NLG)友好，天然符合生成式任务的生成过程。这也是为什么 GPT 能够编故事的原因。

AE 语言模型：

缺点：由于训练中采用了 [MASK] 标记，导致预训练与微调阶段不一致的问题。此外对于生成式问题， AE 模型也显得捉襟见肘，这也是目前 BERT 为数不多实现大的突破的领域。
优点：能够很好的编码上下文语义信息，在自然语言理解(NLU)相关的下游任务上表现突出。

以上是关于论文阅读总结：UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)(的主要内容，如果未能解决你的问题，请参考以下文章

论文阅读：You Only Look Once: Unified, Real-Time Object Detection

论文阅读Unified Pre-training for Program Understanding and Generation

论文阅读CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding