样本权重如何在分类模型中发挥作用？

Posted 2023-03-12

技术标签:

【中文标题】样本权重如何在分类模型中发挥作用？【英文标题】：How do sample weights work in classification models? 【发布时间】：2019-01-26 05:14:14 【问题描述】：

为每个样本提供权重是什么意思分类？逻辑回归或 SVM 等分类算法如何使用权重来强调某些示例而不是其他示例？我很想详细了解这些算法如何利用样本权重。

如果您查看 sklearn documentation for logistic regression，您可以看到 fit 函数有一个可选的 sample_weight 参数，该参数定义为分配给各个样本的权重数组。

【问题讨论】：

【参考方案1】：

此选项适用于不平衡数据集。举个例子：我有很多数据，有些只是噪音。但其他对我来说真的很重要，我希望我的算法比其他点更多地考虑它们。所以我给它分配了一个权重，以确保它得到妥善处理。

它改变了计算损失的方式。误差（残差）将乘以该点的权重，因此目标函数的最小值将发生偏移。我希望它足够清楚。我不知道你是否熟悉它背后的数学，所以我在这里提供一个小介绍，让一切都在手边（如果不需要，请道歉） https://perso.telecom-paristech.fr/rgower/pdf/M2_statistique_optimisation/Intro-ML-expanded.pdf

【讨论】：

你能举个例子吗？假设我有一个不平衡的数据集，其中有 100k 个正数据点和 20k 个负数据点。我应该分配多少重量才能使它们保持平衡？【参考方案2】：

在这里查看一个很好的解释：https://www.kdnuggets.com/2019/11/machine-learning-what-why-how-weighting.html。

【讨论】：

以上是关于样本权重如何在分类模型中发挥作用？的主要内容，如果未能解决你的问题，请参考以下文章