如何有选择地选择训练和测试数据
Posted
技术标签:
【中文标题】如何有选择地选择训练和测试数据【英文标题】:How can I selectively choose train and test data 【发布时间】:2017-12-04 23:09:02 【问题描述】:当您执行 cross_validation.train_test_split(features,labels,test_size) 时,它是一个数据集,会通过 cross_validation 自动拆分为训练和测试数据,但是如何训练和测试两组单独的数据?因此,如果训练数据在一个文件中,而测试数据在另一个文件中,并且您想先使用训练文件训练数据,然后使用测试文件进行测试,该怎么做呢?因为 cross_validation 只取一组数据并自动将其拆分为训练和测试。
谢谢!!
【问题讨论】:
【参考方案1】:如果只有一个拆分,则没有 交叉 验证,您只需在一个数据集上进行训练并在测试一个上检查您的准确性(或其他指标),而不使用 CV(因为,如前所述 - 单个拆分没有像 CV 这样的字符串)。这与 CV 的用途完全相反。引入了 CV因为单一拆分不足以有效估计测试对于小数据集。
【讨论】:
以上是关于如何有选择地选择训练和测试数据的主要内容,如果未能解决你的问题,请参考以下文章