如何判断你的数据集是否适合使用深度学习模型?如果数据量太小有什么解决办法?
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何判断你的数据集是否适合使用深度学习模型?如果数据量太小有什么解决办法?相关的知识,希望对你有一定的参考价值。
如何判断你的数据集是否适合使用深度学习模型?如果数据量太小有什么解决办法?
deep learning is a data hungry problem
数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势。而且如果样本太少模型还非常容易过拟合,表现出极差的泛化特性。
不过这个问题的破解方案是如果数据没有小到极端,那么我们可以通过迁移学习进行精调也能使用深度学习模型;
或者可以通过合适的数据增强(data augmentation)的方法进行数据的扩增,即在原数据的基础上进行数据形式的变换或者信息的增加删减;
以图像数据为例的数据增强方案包含:
几何变换类即对图像进行几何变换,包括翻转,旋转,裁剪,变形,缩放等各类操作,下面展示其中的若干个操作。
上面的几何变换类操作,没有改变图像本身的内容,它可能是选择了图像的一部分或者对像素进行了重分布。如果要改变图像本身的内容,就属于颜色变换类的数据增强了,常见的包括噪声、模糊、颜色变换、擦除、填充等等
以上是关于如何判断你的数据集是否适合使用深度学习模型?如果数据量太小有什么解决办法?的主要内容,如果未能解决你的问题,请参考以下文章
深度学习-用PyTorch实现面部形象分类(非常详细-适合初学者)
深度学习训练集的损失曲线收敛很快而且验证集不下降是啥原因导致的?