使用模型的预测来训练新模型 [关闭]
Posted
技术标签:
【中文标题】使用模型的预测来训练新模型 [关闭]【英文标题】:Using the predictions of a model to train a new model [closed] 【发布时间】:2021-10-12 18:29:41 【问题描述】:我正在尝试训练模型。我只有大约 8k 标记数据和大约 20k 未标记数据。我在想的是,使用 8k 标记数据训练和测试模型并使用该模型预测剩余 20k 未标记数据的类别是否可以。然后,使用所有数据创建一个新模型。我正在尝试进行二元分类,该模型在初始标记的总体上运行良好。
【问题讨论】:
你怎么知道这20k个未标记的数据被正确分类了?如果它是错误的,那么整个方法将创建一个使用错误标签训练的随机预言机。如果前 8 k 值已经足够好,那么实际上不需要接下来的 20k 吗?与例如tensorflow,您还可以冻结当前的训练数据并稍后继续使用新的训练数据,如果您的工具链可以做到这一点,那么额外的学习将更加有效。 你是对的,前 8k 是好的,剩下的是不必要的。这是一份工作申请,他们给我发了笔记本,所以我想充分利用我拥有的数据。 explainxkcd.com/wiki/index.php/File:flawed_data.png 【参考方案1】:是的,你可以这样做,这绝对没问题,而且这种策略也经常被使用。在此过程中,您需要注意以下几点:
-
从标记的
18000
图像创建良好的分层测试数据。如果可能,请使用 k 折拆分。
现在预测其他未标记的图像并获取伪标签。
在整个数据集上训练模型。
这是最重要的一步。在这里,您将在 k-fold 拆分上验证您的模型,然后评估您的模型的性能是否与仅在标记数据上的 k-fold 结果相比有所提高。
不断重复这些步骤,直到您的分数提高,但请始终注意不存在有关 k-fold 数据的数据泄漏。
【讨论】:
以上是关于使用模型的预测来训练新模型 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章
使用经过训练的 K-Means 模型为未见数据预测正确的集群
如何在Android上使用Weka的机器学习模型来预测新值?