如何拆分测试和训练大小
Posted
技术标签:
【中文标题】如何拆分测试和训练大小【英文标题】:How to split test and train size 【发布时间】:2020-10-21 09:31:42 【问题描述】:我正在尝试使用包含 1000 个数字的数据集提供 CNN 模型(人体姿势估计), 首先,如何确保我的数据集数量已经足够? 第二,我应该如何分割我的数据来训练和测试大小? (当我输入 train size = 0.6 和 test_size = 0.4 时,网络不能正常工作,并向我显示 NAN 的权重、偏差和损失值!)
【问题讨论】:
【参考方案1】:没有固定的方法来确定您何时拥有足够大小的数据集。这取决于许多因素。最好的办法是用你所拥有的东西运行,看看它的表现如何。我通常将我的数据分成 3 组,训练、验证和测试。我通常尝试 75% 用于训练,15% 用于验证,10% 用于最终测试。验证集是我用来调整超参数的。最初,我监控训练的准确性和损失。如果我能达到 95% 以上,那么我会监控验证的准确性和损失。我使用 model_checkpoint keras 回调来保存具有最低验证损失的模型。如果验证准确性和损失不令人满意,我会调整超参数以尝试改进它。我发现使用可调节的学习率对此很有用。最后,当我对训练准确度和验证准确度感到满意时,我使用保存的模型对测试集进行预测。这是模型性能的最终衡量标准。
【讨论】:
感谢您的解释。你确实帮到了~以上是关于如何拆分测试和训练大小的主要内容,如果未能解决你的问题,请参考以下文章
为啥 50-50 的训练/测试拆分最适合使用此神经网络的 178 个观察数据集?
QDA |训练和测试数据集的长度 |如何拆分训练数据和测试数据?