半监督学习的测试数据
Posted
技术标签:
【中文标题】半监督学习的测试数据【英文标题】:semi-supervised learning's testing data 【发布时间】:2012-11-08 06:18:53 【问题描述】:半监督学习使用一组标记数据(L)训练一个模型来预测一组未标记数据(U),然后将新的标记数据(L')和原始标记数据(L)分组为完整的标记数据。
我想问一下如何提取测试数据。
-
我应该从 (L union L') 中提取测试数据
我应该从 (L) 中提取测试数据
哪个是对的?
如果测试数据是从(L union L')中提取出来的,结果没有意义,因为L'中的答案可能是错误的...?
================================================ =========== 编辑新的
我有另一个想法.....
3。 我应该在开始时将标记数据(L)拆分为训练数据(L_train)和测试数据(L_test)。
然后用L_train训练一个模型,用它来预测一组未标记的数据(U),然后对预测结果(L')和L_train进行分组。
并且,使用 (L_train union L') 训练模型以在 L_test 上进行测试。
1,2,3 中哪一个是对的? 感谢您的回复。
【问题讨论】:
你的问题不清楚。听起来L'是测试数据。 【参考方案1】:您在 L
上训练分类器。您可以先进行交叉验证以适合某些方法参数P
。使用参数P
,您可以从标记数据L
构建模型M
。然后,您使用模型M
来标记未标记的数据U
。您将来自U
的示例(对分配的课程具有最高的信心)与L
一起加入。然后你重复这个过程,直到所有的例子都被分类。
-编辑-
我认为最合适的方法是第三种。但是我可能理解不正确,所以就这样吧。
您将L
拆分为L_train
和L_test
。您使用L_train
训练您的分类器,并且您还使用此分类器对U
进行分类(按照我上面描述的方法)。从标记为U
和L_train
的联合中构造一个新的分类器,并用它对L_test
进行分类。这些分类中的差异可用于评估措施(分类准确度,...)。
【讨论】:
如果我想评估性能,我应该怎么做?我只想问如何获得测试数据...从我做半监督学习之前的标记数据(L)或从半监督学习之后的完整标记数据(L union L')?谢谢 非常感谢。我明白了。以上是关于半监督学习的测试数据的主要内容,如果未能解决你的问题,请参考以下文章