机器学习中的加权系统程序如何工作?
Posted
技术标签:
【中文标题】机器学习中的加权系统程序如何工作?【英文标题】:How does the weighting system procedure in machine learning work? 【发布时间】:2016-03-26 21:21:10 【问题描述】:在 Weka 中,我们可以选择为某些实例分配权重,尤其是当数据集在类别方面不平衡时。但我无法理解的是这个加权系统是如何工作的?
例如:当我们使用朴素贝叶斯或决策树作为分类算法时,对一些实例的权重为 5 的数据集,是否意味着这些实例被算法考虑了 5 次?
【问题讨论】:
【参考方案1】:样本权重特定于分类器。没有一个通用的答案。只是许多分类器(以及回归器)都有自己使用样本权重的内部方法。对于他们中的许多人来说,这相当于从样本复制的角度来考虑它,但是请记住,权重可以是任意的正实数,因此即使您无法复制,您也可以按pi
加权样本pi
次。在朴素贝叶斯的情况下 - 在概率估计器中使用样本权重来按比例加权每个样本,因此它等同于复制(如果你放 integer 权重)。对于决策树,它要复杂得多,对于任意方法 - 答案是特定于模型/实现的。
【讨论】:
非常感谢,只是为了确保我在同一页面上,复制的意思是,例如,如果我有一个权重为 3 的实例,这意味着我的数据集中有 3 个该实例我对吗? 是的,对于许多算法(和整数权重)来说,它会像这样工作。但是 - 正如答案中所述 - 情况并非总是如此(它纯粹依赖于分类器实现) 我还有一个问题:我有测试集和训练集,所以当我在训练集上应用称重时,我的测量并没有太大改善,但是当我将它应用到测试集上时,现在的改进是值得注意的我想知道在测试集上应用权重是否合理? 不,你永远不会对测试集进行加权。你会怎么做?你不知道标签 od 测试集 谢谢您,您知道如何选择重量吗?我的意思是有任何程序或定义的方式而不是随机选择吗?以上是关于机器学习中的加权系统程序如何工作?的主要内容,如果未能解决你的问题,请参考以下文章