带有 Sklearn 的 MNIST 数据集
Posted
技术标签:
【中文标题】带有 Sklearn 的 MNIST 数据集【英文标题】:MNIST dataset with Sklearn 【发布时间】:2020-03-12 18:21:37 【问题描述】:我在 MNIST 数据集上训练线性模型,但我只想训练一个数字,即 4。如何选择我的 X_test、X_train、y_test、y_train?
【问题讨论】:
【参考方案1】:如果你只需要识别4s,这是一个二元分类问题,所以你只需要创建一个新的目标变量:如果class是4,Y=1,如果class不是4,Y=0。
Train_X 将保持不变 Train_Y 将成为与 Train_X 相关的新目标变量 Test_X 将保持不变 Test_Y 将成为与 Test_X 相关的新目标变量。
数据会有点不平衡,但应该不是问题!
【讨论】:
【参考方案2】:您的分类器需要学会区分不同类别的集合。 如果您只关心数字 4,则应将训练集和测试集拆分为:
4 类实例 非 4 类实例:所有其他数字的并集否则,训练/测试拆分仍然是典型的拆分,您希望没有重叠。
【讨论】:
以上是关于带有 Sklearn 的 MNIST 数据集的主要内容,如果未能解决你的问题,请参考以下文章