高斯贝叶斯分类器与逻辑回归的概率分类

Posted

技术标签:

【中文标题】高斯贝叶斯分类器与逻辑回归的概率分类【英文标题】:Probabilistic classification with Gaussian Bayes Classifier vs Logistic Regression 【发布时间】:2019-04-19 17:23:08 【问题描述】:

我有一个二元分类问题,其中我有一些很棒的功能可以预测几乎 100% 的测试数据,因为这个问题相对简单。

但是,根据问题的性质,我没有犯错的余地(比方说),所以与其给出一个我不确定的预测,我宁愿将输出作为概率,设置一个阈值,然后能够说,“如果我确定的比例低于 %95,我将称之为“不确定”并采取相应的行动”。说“我不知道”而不是犯错误更好。

到目前为止一切顺利。

为此,我尝试了高斯贝叶斯分类器(我有一个连续特征)和逻辑回归算法,它们为我提供了分类的概率和预测。

解决我的问题:

GBC 的成功率约为 99%,而逻辑回归的成功率较低,约为 96%。所以我自然更喜欢用GBC。 不过,和GBC一样成功,它也对自己非常有把握。我得到的几率是 1 或非常接近 1,例如 0.9999997,这对我来说很困难,因为实际上 GBC 现在不提供概率。

Logistic 回归效果不佳,但至少提供了更好、更“合理”的赔率。

由于我的问题的性质,错误分类的成本是 2 的幂,所以如果我对 4 个产品进行错误分类,我会多损失 2^4(它是无单位的,但无论如何都会给出一个想法)。

最后;我希望能够以比逻辑回归更高的成功率进行分类,但也能够有更多的概率,这样我就可以设置一个阈值并指出我不确定的那些。

有什么建议吗?

提前致谢。

【问题讨论】:

【参考方案1】:

如果您有足够的数据,您可以简单地重新调整概率。例如,给定高斯分类器的“预测概率”输出,您可以返回(在保留的数据集上)并以不同的预测值估计正类的概率。

此外,您可以简单地对您的保留集进行优化,以确定最佳阈值(无需实际估计概率)。由于它是一维的,因此您甚至不需要为优化做任何花哨的事情——测试 500 个不同的阈值,然后选择一个将与错误分类相关的成本降至最低的阈值。

【讨论】:

以上是关于高斯贝叶斯分类器与逻辑回归的概率分类的主要内容,如果未能解决你的问题,请参考以下文章

在数字分类数据上实现朴素贝叶斯高斯分类器

如何从朴素贝叶斯分类器中的概率密度函数计算概率?

使用高斯朴素贝叶斯的多类分类

机器学习:贝叶斯分类器——高斯朴素贝叶斯分类器代码实现

sklearn-朴素贝叶斯

最基础的分类算法-朴素贝叶斯分类