半监督学习的测试数据

Posted

技术标签:

【中文标题】半监督学习的测试数据【英文标题】:semi-supervised learning's testing data 【发布时间】:2012-11-08 06:18:53 【问题描述】:

半监督学习使用一组标记数据(L)训练一个模型来预测一组未标记数据(U),然后将新的标记数据(L')和原始标记数据(L)分组为完整的标记数据。

我想问一下如何提取测试数据。

    我应该从 (L union L') 中提取测试数据 我应该从 (L) 中提取测试数据

哪个是对的?

如果测试数据是从(L union L')中提取出来的,结果没有意义,因为L'中的答案可能是错误的...?

================================================ =========== 编辑新的

我有另一个想法.....

3。 我应该在开始时将标记数据(L)拆分为训练数据(L_train)和测试数据(L_test)。

然后用L_train训练一个模型,用它来预测一组未标记的数据(U),然后对预测结果(L')和L_train进行分组。

并且,使用 (L_train union L') 训练模型以在 L_test 上进行测试。

1,2,3 中哪一个是对的? 感谢您的回复。

【问题讨论】:

你的问题不清楚。听起来L'是测试数据 【参考方案1】:

您在 L 上训练分类器。您可以先进行交叉验证以适合某些方法参数P。使用参数P,您可以从标记数据L 构建模型M。然后,您使用模型M 来标记未标记的数据U。您将来自U 的示例(对分配的课程具有最高的信心)与L 一起加入。然后你重复这个过程,直到所有的例子都被分类。

-编辑-

我认为最合适的方法是第三种。但是我可能理解不正确,所以就这样吧。

您将L 拆分为L_trainL_test。您使用L_train 训练您的分类器,并且您还使用此分类器对U 进行分类(按照我上面描述的方法)。从标记为UL_train 的联合中构造一个新的分类器,并用它对L_test 进行分类。这些分类中的差异可用于评估措施(分类准确度,...)。

【讨论】:

如果我想评估性能,我应该怎么做?我只想问如何获得测试数据...从我做半监督学习之前的标记数据(L)或从半监督学习之后的完整标记数据(L union L')?谢谢 非常感谢。我明白了。

以上是关于半监督学习的测试数据的主要内容,如果未能解决你的问题,请参考以下文章

半监督学习——半监督支持向量机

机器学习中的有监督学习,无监督学习,半监督学习

无监督弱监督半监督强化多示例学习是什么

半监督学习总结

半监督学习总结

基于半监督学习算法的文本分类(自训练)