不同类别分类的数据集数量是不是重要

Posted 2023-03-13

技术标签:

【中文标题】不同类别分类的数据集数量是不是重要【英文标题】：Does the number of datasets for the classification of different classes matter不同类别分类的数据集数量是否重要 【发布时间】：2014-03-19 22:45:26 【问题描述】：

我有样本训练数据集，我想知道不同班级的日期数量。我应该在班级之间平衡数据集吗？

【问题讨论】：

【参考方案1】：

训练数据中类表示的不对称性通常称为偏度 [https://en.wikipedia.org/wiki/Skewness]，会给您的模型带来一些问题，因此通常您希望避免这种情况.

也就是说，这只是一个经验法则，您可能会遇到这样的情况，即数据点较少的类实际上被正确表示，而其他类是冗余的，在这种情况下，数据点数量的差异对于每个类可能并不重要。

主要问题是很难先验地判断数据在表示方面是否平衡，因此最好的方法是尝试保持数据点的平衡。此外，一些算法对非对称数据很敏感，因此即使数据确实正确地表示了空间，不平衡也可能会给模型带来偏差。

以下是一些可能有用的链接：

http://people.stern.nyu.edu/fprovost/Papers/skew.PDF

http://etabeta.univ.trieste.it/dspace/bitstream/10077/4002/1/Menardi%20Torelli%20DEAMS%20WPS2.pdf

http://florianhartl.com/thoughts-on-machine-learning-dealing-with-skewed-classes.html

【讨论】：

以上是关于不同类别分类的数据集数量是不是重要的主要内容，如果未能解决你的问题，请参考以下文章

Tensorflow：在具有不同类别数量的新数据集上微调预训练模型

Computer Vision基于ResNet-50实现CIFAR10数据集分类

分类不平衡对软件缺陷预测模型性能的影响研究（笔记）

多标签分类问题 [case study]

对属于不同类别的具有非常相似特征的图像进行分类

为不同类别的图像参考设计深度学习数据集？