论文泛读137LV-BERT:利用 BERT 的层多样性

Posted 及时行樂_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读137LV-BERT:利用 BERT 的层多样性相关的知识,希望对你有一定的参考价值。

贴一下汇总贴:论文阅读记录

论文链接:《LV-BERT: Exploiting Layer Variety for BERT》

一、摘要

现代预训练语言模型主要建立在以交错顺序堆叠自注意力和前馈层的主干上。在本文中,除了这种刻板的层模式之外,我们的目标是通过从两个方面利用层多样性来改进预训练模型:层类型集和层顺序。具体来说,除了原始的自注意力和前馈层之外,我们将卷积引入到层类型集中,实验发现这对预训练模型有益。此外,除了原始的交错顺序之外,我们探索更多的层顺序以发现更强大的架构。然而,引入的层多样性导致了超过数十亿候选的庞大架构空间,而从头开始训练单个候选模型已经需要巨大的计算成本,通过直接训练大量候选模型来搜索这样的空间变得无法负担。为了解决这个问题,我们首先预训练一个可以继承所有候选模型权重的超网络,然后采用以预训练精度为指导的进化算法来寻找最优架构。大量实验表明,通过我们的方法获得的 LV-BERT 模型在各种下游任务上优于 BERT 及其变体。例如,LV-BERT-small 在 GLUE 测试集上达到 78.8,比强基线 ELECTRA-small 高 1.8。然后采用以预训练精度为指导的进化算法来寻找最优架构。大量实验表明,通过我们的方法获得的 LV-BERT 模型在各种下游任务上优于 BERT 及其变体。例如,LV-BERT-small 在 GLUE 测试集上达到 78.8,比强基线 ELECTRA-small 高 1.8。然后采用以预训练精度为指导的进化算法来寻找最优架构。大量实验表明,通过我们的方法获得的 LV-BERT 模型在各种下游任务上优于 BERT 及其变体。例如,LV-BERT-small 在 GLUE 测试集上达到 78.8,比强基线 ELECTRA-small 高 1.8。

二、结论

我们首先从两个方面,即层类型和层顺序,利用层多样性来改进预先训练的语言模型。对于图层类型,我们通过包含用于局部信息提取的卷积来扩充图层类型集。对于层顺序,除了老一套的交错顺序,我们通过使用基于进化的搜索算法探索更有效的顺序。实验结果表明,我们得到的LV-BERT模型在各种下游任务上优于BERT及其变体。

三、模型

模型概述:
在这里插入图片描述
预训练MLM精度指导下的进化搜索算法:

在这里插入图片描述

以上是关于论文泛读137LV-BERT:利用 BERT 的层多样性的主要内容,如果未能解决你的问题,请参考以下文章

论文泛读198通过输入空间转换利用 BERT 进行多模态目标情感分类

论文泛读198通过输入空间转换利用 BERT 进行多模态目标情感分类

论文泛读176具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射

论文泛读176具有各向同性和等距条件的跨语言 BERT 上下文嵌入空间映射

论文泛读121边际效用递减:探索BERT知识蒸馏的最小知识

论文泛读142Sentence-BERT:使用 Siamese BERT-Networks 的句子嵌入