样本权重如何在分类模型中发挥作用?

Posted

技术标签:

【中文标题】样本权重如何在分类模型中发挥作用?【英文标题】:How do sample weights work in classification models? 【发布时间】:2019-01-26 05:14:14 【问题描述】:

为每个样本提供权重是什么意思 分类?逻辑回归或 SVM 等分类算法如何使用权重来强调某些示例而不是其他示例?我很想详细了解这些算法如何利用样本权重。

如果您查看 sklearn documentation for logistic regression,您可以看到 fit 函数有一个可选的 sample_weight 参数,该参数定义为分配给各个样本的权重数组。

【问题讨论】:

【参考方案1】:

此选项适用于不平衡数据集。举个例子:我有很多数据,有些只是噪音。但其他对我来说真的很重要,我希望我的算法比其他点更多地考虑它们。所以我给它分配了一个权重,以确保它得到妥善处理。

它改变了计算损失的方式。误差(残差)将乘以该点的权重,因此目标函数的最小值将发生偏移。我希望它足够清楚。我不知道你是否熟悉它背后的数学,所以我在这里提供一个小介绍,让一切都在手边(如果不需要,请道歉) https://perso.telecom-paristech.fr/rgower/pdf/M2_statistique_optimisation/Intro-ML-expanded.pdf

【讨论】:

你能举个例子吗?假设我有一个不平衡的数据集,其中有 100k 个正数据点和 20k 个负数据点。我应该分配多少重量才能使它们保持平衡?【参考方案2】:

在这里查看一个很好的解释:https://www.kdnuggets.com/2019/11/machine-learning-what-why-how-weighting.html

【讨论】:

以上是关于样本权重如何在分类模型中发挥作用?的主要内容,如果未能解决你的问题,请参考以下文章

BP_Adaboost 模型及其分类应用

模型评估——评估指标的局限性

如何解决样本不均衡问题

线性模型

如何获得 Huggingface Transformer 模型预测 [零样本分类] 的 SHAP 值?

图像分类迁移学习需要负样本吗?