使用领域文本预训练 BERT/RoBERTa 语言模型,估计需要多长时间?哪个更快?

Posted

技术标签:

【中文标题】使用领域文本预训练 BERT/RoBERTa 语言模型,估计需要多长时间?哪个更快?【英文标题】:Pre-training BERT/RoBERTa language model using domain text, how long it gonna take estimately? which is faster? 【发布时间】:2020-05-24 23:45:34 【问题描述】:

我想使用领域语料库(与情感相关的文本)对 BERT 和 RoBERTa MLM 进行预训练。使用 50k~100k 单词需要多长时间。由于 RoBERTa 没有接受过预测下一个句子目标的训练,比 BERT 少一个训练目标,并且具有更大的 mini-batch 和学习率,我认为 RoBERTa 会快得多?

【问题讨论】:

【参考方案1】:

100k 单词太少,无法训练像 BERT 或 RoBERTa 这样的大型模型。 the RoBERTa paper 的主要主张是 BERT 实际上训练不足。 BERT 使用 16 GB 的文本数据进行训练,而 RoBERTa 使用了 160 GB 的纯文本。

对于您描述的特定领域的小型数据,您可以尝试微调现有模型。在这种情况下,我会选择 RoBERTa,因为它似乎经过更好的预训练,没有下一个句子目标(为它预处理数据很麻烦),并且它使用 SentencePiece 进行标记化,这允许无损去标记化。

【讨论】:

以上是关于使用领域文本预训练 BERT/RoBERTa 语言模型,估计需要多长时间?哪个更快?的主要内容,如果未能解决你的问题,请参考以下文章

特定领域知识图谱融合方案:文本匹配算法之预训练SimbertERNIE-Gram单塔模型等诸多模型

特定领域知识图谱融合方案:文本匹配算法之预训练SimbertERNIE-Gram单塔模型等诸多模型

北航面向自然语言处理的预训练技术研究综述

向 BERT/RoBERTa 添加新令牌,同时保留相邻令牌的令牌化

BERT 预训练模型及文本分类

NLP领域任务如何选择合适预训练模型以及选择合适的方案规范建议ERNIE模型首选