在机器学习中创建监督模型
Posted
技术标签:
【中文标题】在机器学习中创建监督模型【英文标题】:Creating supervised model in machine learning 【发布时间】:2017-01-10 07:09:12 【问题描述】:我最近了解了监督学习的工作原理。它学习标记的数据集并预测未标记的数据。
但是,我有一个问题,可以用预测的基准来教授创建的模型,然后再次预测未标记的基准。然后重复这个过程。
例如,模型 M 是由 10 个标记的数据集 D 创建的,然后模型 M 预测数据 A。然后,将数据 A 添加到数据集 D 并再次创建模型 M。以不可预测的数据量重复该过程。
【问题讨论】:
【参考方案1】:您在此处描述的是一种众所周知的技术,称为(除其他名称外)“selftraining”或“self semi-supervised training”。例如幻灯片https://www.cs.utah.edu/~piyush/teaching/8-11-print.pdf。围绕这个想法有数百种修改。不幸的是,一般来说很难证明它应该有帮助,所以虽然它对某些数据集有帮助,但对其他数据集却有帮助。这里的主要标准是第一个模型的质量,因为自我训练是基于这样的假设,即您的原始模型非常好,因此您可以信任它来标记新示例。对于强模型,它可能有助于缓慢的概念漂移,但对于弱模型会失败。
【讨论】:
有趣的答案。【参考方案2】:您所描述的称为online machine learning、增量监督学习、可更新分类器......有很多算法可以完成这些行为。参见例如 weka 工具箱Updateable Classifiers。 我建议看看下面的。
霍夫丁树 IBk NaiveBayesUpdateable 新元【讨论】:
抱歉,这些主题无关紧要。在线学习适用于在每个步骤中,您必须预测结果,然后获得正确标签的情况。这与问题无关,其中 OP 只是建议使用由原始模型获得的标签增强的训练集重新输入算法。没有进一步的阶段可以揭示真正的标签。 @AmiTavory 我建议重新阅读在线阅读的内容。这就是他所描述的。 只是为了确保,您不同意我上述评论中的确切内容:1. 与我的想法相反,OP 正在描述一种情况,即迭代地,更多标记数据正在进入。2 . 与我的想法相反,您提到的在线算法会继续更新预测,即使没有更多标签进入(仅添加自变量实例)。 @Ami 是对的,这并没有解决 OP 的问题,他尝试进行(自我)半监督学习,而不仅仅是增量学习。 @Ami 是对的,问题是关于半监督学习,而不是在线学习。不过,在线学习算法可能用于实现半监督学习算法。以上是关于在机器学习中创建监督模型的主要内容,如果未能解决你的问题,请参考以下文章