您能否从头开始训练具有特定任务架构的BERT模型？

Posted 2023-01-24

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了您能否从头开始训练具有特定任务架构的BERT模型？相关的知识，希望对你有一定的参考价值。

BERT对基本模型的预训练是通过语言建模方法完成的，其中我们掩盖了句子中一定比例的标记，然后使模型学习那些缺失的掩盖。然后，我认为为了执行下游任务，我们添加了一个新初始化的层并对模型进行微调。

但是，假设我们有一个庞大的数据集用于句子分类。从理论上讲，我们是否可以从头开始初始化BERT基本体系结构，仅使用此句子分类数据集训练额外的下游任务特定层+基本模型权重就从头开始，仍然可以获得良好的结果？

谢谢。

答案

BERT可以看作是一种语言编码器，它接受了大量的数据训练，可以很好地学习该语言。众所周知，原始的BERT模型是在整个英语Wikipedia和Book语料库上训练的，总和为3,300M个单词。基于BERT的模型参数为109M。因此，如果您认为自己有足够的数据来训练BERT，那么问题的答案是肯定的。

但是，当您说“仍然取得良好结果”时，需要进行一些比较。我想知道为什么您更喜欢从头训练BERT而不是对其进行微调？是因为您担心域适应问题吗？总体而言，要获得满意的答案，我认为您需要进行更多分析并进行实验。

请注意，如果您想从头训练BERT，则可以考虑使用smaller体系结构。您可能会发现以下论文很有用。

以上是关于您能否从头开始训练具有特定任务架构的BERT模型？的主要内容，如果未能解决你的问题，请参考以下文章

预训练模型-从BERT原理到BERT调包和微调

在特定领域继续训练预训练的 BERT 模型的最简单方法是啥？

BERT模型

如何在未标记的数据上微调 BERT？

NLP 预训练模型（例如 ELMo、Bert）的数据预处理

BERT源码分析PART II