BERT模型Hugging face的慢速训练

Posted

技术标签:

【中文标题】BERT模型Hugging face的慢速训练【英文标题】:Slow training of BERT model Hugging face 【发布时间】:2021-10-22 13:09:46 【问题描述】:

我正在使用拥抱人脸库中的 BERT 模型实现二进制分类器

training_args = TrainingArguments(
   "deleted_tweets_trainer",                  
   num_train_epochs = 1,            
   #logging_steps=100,    
   evaluation_strategy='steps',       
   remove_unused_columns = True    
)

我正在使用 Colab TPU,但训练时间很长,60 小时清理推文需要 38 小时。

有没有办法优化训练?

【问题讨论】:

【参考方案1】:

您目前每 500 步评估一次,并且训练和评估批次大小为 8。

根据您当前的内存消耗,您可以增加批量大小(评估更多,因为训练消耗更多内存):

per_device_train_batch_size per_device_eval_batch_size

如果它与您的用例匹配,您还可以在开始评估后增加步骤;

eval_steps

【讨论】:

谢谢,添加 per_device_eval_batch_size=16 后,增加了计算时间 更高的batch_size会增加计算时间?你能再检查一遍吗? @AlexKujur

以上是关于BERT模型Hugging face的慢速训练的主要内容,如果未能解决你的问题,请参考以下文章

如何获得 Hugging Face 预训练模型的大小?

使用 LoRA 和 Hugging Face 高效训练大语言模型

基于 hugging face 预训练模型的实体识别智能标注方案:生成doccano要求json格式

翻译: Deep Learning深度学习平台Hugging Face 开源代码和技术构建训练和部署 ML 模型

翻译: Deep Learning深度学习平台Hugging Face 开源代码和技术构建训练和部署 ML 模型

翻译: Deep Learning深度学习平台Hugging Face 开源代码和技术构建训练和部署 ML 模型