在机器学习中创建监督模型

Posted 2023-03-12

技术标签:

【中文标题】在机器学习中创建监督模型【英文标题】：Creating supervised model in machine learning 【发布时间】：2017-01-10 07:09:12 【问题描述】：

我最近了解了监督学习的工作原理。它学习标记的数据集并预测未标记的数据。

但是，我有一个问题，可以用预测的基准来教授创建的模型，然后再次预测未标记的基准。然后重复这个过程。

例如，模型 M 是由 10 个标记的数据集 D 创建的，然后模型 M 预测数据 A。然后，将数据 A 添加到数据集 D 并再次创建模型 M。以不可预测的数据量重复该过程。

【问题讨论】：

【参考方案1】：

您在此处描述的是一种众所周知的技术，称为（除其他名称外）“selftraining”或“self semi-supervised training”。例如幻灯片https://www.cs.utah.edu/~piyush/teaching/8-11-print.pdf。围绕这个想法有数百种修改。不幸的是，一般来说很难证明它应该有帮助，所以虽然它对某些数据集有帮助，但对其他数据集却有帮助。这里的主要标准是第一个模型的质量，因为自我训练是基于这样的假设，即您的原始模型非常好，因此您可以信任它来标记新示例。对于强模型，它可能有助于缓慢的概念漂移，但对于弱模型会失败。

【讨论】：

有趣的答案。【参考方案2】：

您所描述的称为online machine learning、增量监督学习、可更新分类器......有很多算法可以完成这些行为。参见例如 weka 工具箱Updateable Classifiers。我建议看看下面的。

霍夫丁树 IBk NaiveBayesUpdateable 新元

【讨论】：

抱歉，这些主题无关紧要。在线学习适用于在每个步骤中，您必须预测结果，然后获得正确标签的情况。这与问题无关，其中 OP 只是建议使用由原始模型获得的标签增强的训练集重新输入算法。没有进一步的阶段可以揭示真正的标签。 @AmiTavory 我建议重新阅读在线阅读的内容。这就是他所描述的。只是为了确保，您不同意我上述评论中的确切内容：1. 与我的想法相反，OP 正在描述一种情况，即迭代地，更多标记数据正在进入。2 . 与我的想法相反，您提到的在线算法会继续更新预测，即使没有更多标签进入（仅添加自变量实例）。 @Ami 是对的，这并没有解决 OP 的问题，他尝试进行（自我）半监督学习，而不仅仅是增量学习。 @Ami 是对的，问题是关于半监督学习，而不是在线学习。不过，在线学习算法可能用于实现半监督学习算法。

以上是关于在机器学习中创建监督模型的主要内容，如果未能解决你的问题，请参考以下文章

Python机器学习（基础篇---监督学习（集成模型））