将 kNN 模型应用于 RapidMiner 中的整个数据集
Posted
技术标签:
【中文标题】将 kNN 模型应用于 RapidMiner 中的整个数据集【英文标题】:Apply kNN model to whole dataset in RapidMiner 【发布时间】:2018-03-06 17:28:40 【问题描述】:这里是初学者 RapidMiner 问题。假设我通过例如完成了一个预测性 kNN 模型的开发。交叉验证,我现在想用这个模型对我处理过的整个数据集(训练和测试集)进行预测,这是怎么做的?我尝试了以下方法:
但是每个对象的“标签”都包含在其自己的最近邻域中,因此如果 k = 1,则预测误差 = 0,这显然不应该发生。
【问题讨论】:
【参考方案1】:好的,可以通过从“交叉验证”中提取“测试集”来完成,如下所示:
所以基本上整个数据集是使用交叉验证时的测试和训练集,并且预测也作为额外的列包含在输出中,但不确定它们是平均值还是只是最新的迭代。
【讨论】:
啊,对不起,如果我把你的问题弄错了。顺便说一句,共享 RapidMiner 进程的 XML 文件非常方便。 没有问题感谢您的回答。这是一个棘手的问题,因为 kNN 在训练/测试方面是一个特例,这里有一个有趣的讨论:***.com/questions/10814731/…【参考方案2】:你是对的,将模型应用于训练它的相同数据是错误的。通常情况下,谁会在其中设置一部分数据用于训练模型,然后将另一部分数据(未参与训练)用于测试。
请记住,交叉验证通常不是训练的一部分,而是一种确保您的模型稳定且不会在提供的数据上过度训练的方法。
我可以推荐观看 applying、testing 和 validating 上的 RapidMiner 教程视频。
您也可以在RapidMiner community forum 中进一步提问或重新发布问题。
【讨论】:
以上是关于将 kNN 模型应用于 RapidMiner 中的整个数据集的主要内容,如果未能解决你的问题,请参考以下文章
rapidminer 和 scikit-learn 中的 DBSCAN 算法