文本二进制分类训练期间的波动损失
Posted
技术标签:
【中文标题】文本二进制分类训练期间的波动损失【英文标题】:Fluctuating loss during training for text binary classification 【发布时间】:2020-12-23 20:49:09 【问题描述】:我正在使用 Huggingface Trainer class 对 文档文本二进制分类任务 上的 Longformer 进行微调,并且我正在使用 Tensorboard 监控一些检查点的措施。
即使 F1 分数和准确率相当高,我也对训练损失的波动感到困惑。
我在网上看到一个原因可能是:
学习率太高,但我尝试了 3 个值(1e-4、1e-5 和 1e-6),它们都取得了相同的效果 小批量。我正在使用具有 8xK80 GPU 的 Sagemaker notebook p2.8xlarge。我可以用来避免 CUDA 内存不足错误的每个 GPU 的批处理大小为 1。因此,总批处理大小为 8。我的直觉是 8 的 bs 对于包含 57K 示例(每个 epoch 7K 步)的数据集来说太小了。不幸的是,这是我可以使用的最高值。这里我报告了F1、accuracy、loss和smoothed loss的趋势。灰线是1e-6的学习率,粉红色的是1e-5。
我重新了解了我培训的所有信息:
批量大小:1 x 8GPU = 8 学习率:1e-4、1e-5、1e-6(所有测试都没有改进损失) 型号:Longformer 数据集: 训练集:57K 示例 开发集:12K 示例 测试集:12K 示例这可能是什么原因?尽管 F1 和准确度结果相当好,这是否可以被视为一个问题?
【问题讨论】:
这是由小批量造成的。 这可以被认为是模型预测的问题吗?你认为bs越高f1也可以提高吗? F1 分数取决于广告召回率。如果增加batch_size,您可以获得平滑的loss
曲线。但 F1 分数取决于您的模型在所有类别上的表现。因此,每个类中的示例数量也会影响 f1 分数。
所以也许,保持固定 bs,减少训练集大小是一种改进吗?
减少训练集大小应该没有帮助。如果您的评估指标/结果看起来不错,这可能不是主要问题。你看到小批量的原因是你可以获得一个“简单”的批量,其中说 5/8 的例子很容易,而 3/8 的例子有点难。如果您想尝试增加批量大小,您可以尝试梯度累积和/或梯度检查点,这两种方法都可以让您在一个步骤中进行更多处理,但代价是速度较慢
【参考方案1】:
我会先告诉你波动的原因,然后再告诉你可能的解决方法。
原因
当你训练一个网络时,你会计算一个可以减少损失的梯度。为此,您需要反向传播损失。现在,理想情况下,您可以根据数据中的所有样本计算损失,因为您基本上会考虑每个样本,并得出一个可以捕获所有样本的梯度。实际上,由于在所有样本上计算梯度的计算复杂性,这是不可能的。
因此,我们使用 small batch_size 作为近似值!我们的想法不是考虑所有样本,而是说我基于一些小样本集计算梯度,但作为权衡,我会丢失有关梯度的信息。
经验法则:较小的批大小会产生嘈杂的梯度,但它们会更快地收敛,因为每个 epoch 都有更多的更新。如果您的批量大小为 1,则每个 epoch 将有 N 次更新。如果是 N,则每个 epoch 将只有 1 次更新。另一方面,较大的批大小会提供更多信息梯度,但收敛速度较慢并增加计算复杂度。
这就是为什么对于较小的批量,您会观察到不同的损失/波动,因为梯度是嘈杂的。
解决方案:累积梯度
如果出现内存问题,您可以使用累积梯度的概念来对抗波动损失。它在每个 mini-batch 之后计算损失和梯度,但不是更新每个批次的权重,而是等待并累积连续批次的梯度。然后最终根据指定批次数后的累积梯度更新参数。
在文档的此页面上,您可以找到如何应用它:https://huggingface.co/transformers/v1.2.0/examples.html
【讨论】:
以上是关于文本二进制分类训练期间的波动损失的主要内容,如果未能解决你的问题,请参考以下文章
训练CNN模型图像分类期间的tensorflow NaN损失
具有对数损失的 TensorFlow 单 sigmoid 输出与具有稀疏 softmax 交叉熵损失的两个线性输出,用于二进制分类