对每个目标使用不同的测试/训练拆分

Posted

技术标签:

【中文标题】对每个目标使用不同的测试/训练拆分【英文标题】:Using a different test/train split for each target 【发布时间】:2020-06-04 01:31:30 【问题描述】:

我计划使用包含 3 个感兴趣的目标值的数据集。最终,我将在二元目标上尝试分类方法,并计划对两个独立的连续目标使用回归方法。

对每个目标变量进行不同的训练/测试拆分是一种不好的做法吗?

否则,我不确定如何以允许我分别预测每个目标的方式拆分数据。

【问题讨论】:

【参考方案1】:

如果它们实际上是分别训练和评估的 3 个不同模型,那么为了科学地评估每个模型的性能,是否对每个模型使用不同的测试训练拆分并不重要,因为模型不会泄露任何信息模拟。但是,如果您计划比较 3 个模型的结果或将所有 3 个分数组合成某个聚合指标,那么您可能希望使用相同的测试训练拆分,以便所有 3 个模型都使用相同的训练数据,否则性能每个模型的得分可能在某种程度上取决于其他模型的测试数据,因此您的综合得分在某种程度上将是您的测试数据的函数。

【讨论】:

以上是关于对每个目标使用不同的测试/训练拆分的主要内容,如果未能解决你的问题,请参考以下文章

根据分类列拆分训练和测试集

将分区数据集拆分为训练和测试(训练数据每个类有 200 个示例)

根据python中训练和测试集中的时间戳为每个用户拆分数据集

如何将训练数据集拆分为训练,验证和测试数据集?

您是不是对训练和测试数据分别应用最小最大缩放?

我可以对训练和测试数据使用假设检验吗?