如何有选择地选择训练和测试数据

Posted

技术标签:

【中文标题】如何有选择地选择训练和测试数据【英文标题】:How can I selectively choose train and test data 【发布时间】:2017-12-04 23:09:02 【问题描述】:

当您执行 cross_validation.train_test_split(features,labels,test_size) 时,它是一个数据集,会通过 cross_validation 自动拆分为训练和测试数据,但是如何训练和测试两组单独的数据?因此,如果训练数据在一个文件中,而测试数据在另一个文件中,并且您想先使用训练文件训练数据,然后使用测试文件进行测试,该怎么做呢?因为 cross_validation 只取一组数据并自动将其拆分为训练和测试。

谢谢!!

【问题讨论】:

【参考方案1】:

如果只有一个拆分,则没有 交叉 验证,您只需在一个数据集上进行训练并在测试一个上检查您的准确性(或其他指标),而不使用 CV(因为,如前所述 - 单个拆分没有像 CV 这样的字符串)。这与 CV 的用途完全相反。引入了 CV因为单一拆分不足以有效估计测试对于小数据集

【讨论】:

以上是关于如何有选择地选择训练和测试数据的主要内容,如果未能解决你的问题,请参考以下文章

Alink漫谈 : 如何划分训练数据集和测试数据集

如何在测试数据集中随机选择人脸

如何在训练、验证、测试样本中选择几乎均匀分布的类?

将数据拆分为训练/测试文件,以便为两个文件选择至少一个样本

数据集拆分:训练集、验证集、测试集

如何利用python将txt文件划分训练集和测试集