您能否从头开始训练具有特定任务架构的BERT模型?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了您能否从头开始训练具有特定任务架构的BERT模型?相关的知识,希望对你有一定的参考价值。
BERT对基本模型的预训练是通过语言建模方法完成的,其中我们掩盖了句子中一定比例的标记,然后使模型学习那些缺失的掩盖。然后,我认为为了执行下游任务,我们添加了一个新初始化的层并对模型进行微调。
但是,假设我们有一个庞大的数据集用于句子分类。从理论上讲,我们是否可以从头开始初始化BERT基本体系结构,仅使用此句子分类数据集训练额外的下游任务特定层+基本模型权重就从头开始,仍然可以获得良好的结果?
谢谢。
答案
BERT可以看作是一种语言编码器,它接受了大量的数据训练,可以很好地学习该语言。众所周知,原始的BERT模型是在整个英语Wikipedia和Book语料库上训练的,总和为3,300M个单词。基于BERT的模型参数为109M。因此,如果您认为自己有足够的数据来训练BERT,那么问题的答案是肯定的。
但是,当您说“仍然取得良好结果”时,需要进行一些比较。我想知道为什么您更喜欢从头训练BERT而不是对其进行微调?是因为您担心域适应问题吗?总体而言,要获得满意的答案,我认为您需要进行更多分析并进行实验。
请注意,如果您想从头训练BERT,则可以考虑使用smaller体系结构。您可能会发现以下论文很有用。
- Well-Read Students Learn Better: On the Importance of Pre-training Compact Models
- ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
以上是关于您能否从头开始训练具有特定任务架构的BERT模型?的主要内容,如果未能解决你的问题,请参考以下文章