论文泛读154ERNIE 3.0:大规模知识增强语言理解和生成的预训练

Posted 及时行樂_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读154ERNIE 3.0:大规模知识增强语言理解和生成的预训练相关的知识,希望对你有一定的参考价值。

贴一下汇总贴:论文阅读记录

论文链接:《ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation》

一、摘要

预训练模型在各种自然语言处理 (NLP) 任务中取得了最先进的结果。最近的工作如 T5 和 GPT-3 表明,扩大预训练的语言模型可以提高它们的泛化能力。特别是,具有 1750 亿个参数的 GPT-3 模型显示了其强大的任务无关的零样本/少样本学习能力。尽管取得了成功,但这些大规模模型是在纯文本上训练的,而没有引入语言知识和世界知识等知识。此外,大多数大型模型都是以自回归方式训练的。因此,这种传统的微调方法在解决下游语言理解任务时表现出相对较弱的性能。为了解决上述问题,我们提出了一个统一的框架,命名为 ERNIE 3.0 用于预训练大规模知识增强模型。它融合了自回归网络和自编码网络,因此可以通过零样本学习、少样本学习或微调轻松地为自然语言理解和生成任务量身定制训练好的模型。我们在由纯文本和大规模知识图组成的 4TB 语料库上用 100 亿个参数训练模型。实证结果表明,该模型在 54 个中文 NLP 任务上的表现优于最先进的模型,其英文版在 SuperGLUE 基准测试(2021 年 7 月 3 日)上获得第一名,超过人类表现 +0.8%( 90.6% 对 89.8%)。这样训练好的模型可以通过零样本学习、少样本学习或微调轻松地针对自然语言理解和生成任务进行定制。我们在由纯文本和大规模知识图组成的 4TB 语料库上用 100 亿个参数训练模型。实证结果表明,该模型在 54 个中文 NLP 任务上的表现优于最先进的模型,其英文版在 SuperGLUE 基准测试(2021 年 7 月 3 日)上获得第一名,超过人类表现 +0.8%( 90.6% 对 89.8%)。这样训练好的模型可以通过零样本学习、少样本学习或微调轻松地针对自然语言理解和生成任务进行定制。我们在由纯文本和大规模知识图组成的 4TB 语料库上用 100 亿个参数训练模型。实证结果表明,该模型在 54 个中文 NLP 任务上的表现优于最先进的模型,其英文版在 SuperGLUE 基准测试(2021 年 7 月 3 日)上获得第一名,超过人类表现 +0.8%( 90.6% 对 89.8%)。

二、结论

我们提出了ERNIE 3.0框架,在包括纯文本和知识图的4TB语料库上预训练知识增强的100亿参数模型。为了利用零镜头学习、少镜头学习和微调来处理语言理解和生成任务,ERNIE 3.0设计了一个统一的预训练框架,该框架集成了自动编码器网络和自回归网络。我们在来自不同任务范例和领域的各种数据集上构建了广泛的实验,结果证明了ERNIE 3.0与先前最先进的预训练模型相比的有效性。

三、模型框架

建议先看看ERNIE的其他版本

在这里插入图片描述
采用各种类型的预训练任务,使模型能够更有效地学习由有价值的词汇、句法和语义信息组成的不同层次的知识,其中预训练任务传播三种任务范式,即自然语言理解、自然语言生成和知识提取。因此,ERNIE 3.0创新性地设计了一个连续多范式统一预训练框架,以实现多任务范式之间的协同预训练。

弄懂ERNIE可以作为本周的工作重点~

以上是关于论文泛读154ERNIE 3.0:大规模知识增强语言理解和生成的预训练的主要内容,如果未能解决你的问题,请参考以下文章

论文泛读77以自然的方式进行自然语言处理:基于面向对象的知识库和多层语法库的NLP工具包

论文泛读190基于子图搜索的在线问答系统

论文泛读190基于子图搜索的在线问答系统

论文泛读158时间感知古汉语文本翻译与推理

论文泛读157文本分类数据增强调查

论文泛读114通过数据增强和基本原理训练的跨语言句子选择