预训练语言模型关系图+必读论文列表,清华荣誉出品

Posted 机器学习算法与Python学习-公众号

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了预训练语言模型关系图+必读论文列表,清华荣誉出品相关的知识,希望对你有一定的参考价值。

点击 机器学习算法与Python学习选择加星标

精彩内容不迷路

项目作者:王晓智、张正

预训练语言模型(PLM)是 NLP 领域的一大热门话题。从 BERT 到 GPT2 再到 XLNet,各种预训练模型层出不穷,不少同学感叹,「大佬慢点,跟不上了……」那么,这么多预训练模型要怎么学?它们之间有什么关联?为了理清这些问题,来自清华大学的两位本科同学整理了一份预训练语言模型必读论文列表,还用图的形式整理出了这些模型之间的复杂关系。

Github 项目:https://github.com/thunlp/PLMpapers

项目的两位作者——王晓智和张正彦都是清华大学的在读本科生。其中,王晓智师从清华大学计算机系教授李涓子和副教授刘知远,研究方向为 NLP 和知识图谱中的深度学习技术;张正彦则参与过孙茂松教授指导的很多工作,如之前发布的「图神经网络必读论文列表」。此外,他还是增强版语言表征模型 ERNIE 的第一作者,并参与了多领域中文预训练模型仓库 OpenCLaP 的创建。

在这个预训练模型论文列表项目中,两位同学首先给出了一份预训练语言模型的关系图:

图中列出了 BERT、GPT、XLNet、ERNIE 等大家熟知的模型以及它们之间的关系。以 BERT 和清华大学提出的 ERNIE 为例,张正彦等人曾在论文中指出,BERT 等预训练语言模型只能学习语言相关的信息,学习不到「知识」相关的信息。因此他们提出用知识图谱增强 BERT 的预训练效果,让预训练语言模型也能变得「有文化」。在这张图中我们可以清楚地看到论文中阐述的这种关系,即 BERT+知识图谱→ERNIE(清华版)。这种简化版的展示对于初学者理清思路非常有帮助。

除了这张关系图,两位同学还给出了一份预训练语言模型必读论文列表。列表分为三个部分:模型、知识蒸馏与模型压缩以及相关分析论文。机器之心曾经介绍过其中的一些论文,读者可以根据链接找到相关论文中文介绍。

模型部分包含 34 篇论文,列表如下:

「知识蒸馏与模型压缩」部分包含 11 篇论文,列表如下:

分析部分包含 26 篇论文,列表如下:



以上是关于预训练语言模型关系图+必读论文列表,清华荣誉出品的主要内容,如果未能解决你的问题,请参考以下文章

清华唐杰团队:一文看懂NLP预训练模型前世今生

清华大学出品:罚梯度范数提高深度学习模型泛化性

近期必读 ICLR 2021 图神经网络相关论文

BERT:深度双向预训练语言模型

论文泛读94用于文本生成的预训练语言模型:一项调查

论文泛读200通过适配器使用预训练语言模型进行稳健的迁移学习