如何指定对训练数据的置信度?
Posted
技术标签:
【中文标题】如何指定对训练数据的置信度?【英文标题】:How can I specify confidence in training data? 【发布时间】:2021-01-20 12:58:35 【问题描述】:我正在使用分类变量对数据进行分类。这是人们提供信息的数据。
我的训练数据集质量参差不齐。我对某些数据更有信心,即我对人们提供了正确信息的信心更高,而在某些数据中我不太确定。
如何将此信息传递给分类算法,例如朴素贝叶斯或 K 最近邻? 还是应该改用另一种算法?
【问题讨论】:
【参考方案1】:我认为您想要做的是为您拥有的每个数据点提供单独的权重(对于重要性/置信度)。
例如,如果您非常确定某个数据点的质量较高并且应该比其他您不太自信的数据点具有更高的权重,那么您可以在拟合分类器时指定这一点。
Sklearn 为此提供了例如高斯朴素贝叶斯分类器 (GaussianNB)。
这里可以在调用fit()
方法时指定sample_weights
。
【讨论】:
以上是关于如何指定对训练数据的置信度?的主要内容,如果未能解决你的问题,请参考以下文章
R语言plotly可视化:使用plotly可视化数据划分后的训练集和测试集使用不同的形状标签表征训练集测试集以及数据集的分类标签整个数据空间的分类边界轮廓线(等高线)多分类模型的预测置信度