带有 Sklearn 的 MNIST 数据集

Posted

技术标签:

【中文标题】带有 Sklearn 的 MNIST 数据集【英文标题】:MNIST dataset with Sklearn 【发布时间】:2020-03-12 18:21:37 【问题描述】:

我在 MNIST 数据集上训练线性模型,但我只想训练一个数字,即 4。如何选择我的 X_test、X_train、y_test、y_train?

【问题讨论】:

【参考方案1】:

如果你只需要识别4s,这是一个二元分类问题,所以你只需要创建一个新的目标变量:如果class是4,Y=1,如果class不是4,Y=0。

Train_X 将保持不变 Train_Y 将成为与 Train_X 相关的新目标变量 Test_X 将保持不变 Test_Y 将成为与 Test_X 相关的新目标变量。

数据会有点不平衡,但应该不是问题!

【讨论】:

【参考方案2】:

您的分类器需要学会区分不同类别的集合。 如果您只关心数字 4,则应将训练集和测试集拆分为:

4 类实例 非 4 类实例:所有其他数字的并集

否则,训练/测试拆分仍然是典型的拆分,您希望没有重叠。

【讨论】:

以上是关于带有 Sklearn 的 MNIST 数据集的主要内容,如果未能解决你的问题,请参考以下文章

机器学习算法专题(蓄力计划)二十实操代码MNIST 数据集

机器学习:PCA(实例:MNIST数据集)

python支持向量机分类MNIST数据集

使用线性回归识别手写阿拉伯数字mnist数据集

sklearn.SVC 在使用带有小型平衡数据集的 GridSearchCV 时返回完全不同的预测(模型)

在带有分组约束的 sklearn (python 2.7) 中创建训练、测试和交叉验证数据集?