高斯贝叶斯分类器与逻辑回归的概率分类
Posted
技术标签:
【中文标题】高斯贝叶斯分类器与逻辑回归的概率分类【英文标题】:Probabilistic classification with Gaussian Bayes Classifier vs Logistic Regression 【发布时间】:2019-04-19 17:23:08 【问题描述】:我有一个二元分类问题,其中我有一些很棒的功能可以预测几乎 100% 的测试数据,因为这个问题相对简单。
但是,根据问题的性质,我没有犯错的余地(比方说),所以与其给出一个我不确定的预测,我宁愿将输出作为概率,设置一个阈值,然后能够说,“如果我确定的比例低于 %95,我将称之为“不确定”并采取相应的行动”。说“我不知道”而不是犯错误更好。
到目前为止一切顺利。
为此,我尝试了高斯贝叶斯分类器(我有一个连续特征)和逻辑回归算法,它们为我提供了分类的概率和预测。
解决我的问题:
GBC 的成功率约为 99%,而逻辑回归的成功率较低,约为 96%。所以我自然更喜欢用GBC。 不过,和GBC一样成功,它也对自己非常有把握。我得到的几率是 1 或非常接近 1,例如 0.9999997,这对我来说很困难,因为实际上 GBC 现在不提供概率。
Logistic 回归效果不佳,但至少提供了更好、更“合理”的赔率。
由于我的问题的性质,错误分类的成本是 2 的幂,所以如果我对 4 个产品进行错误分类,我会多损失 2^4(它是无单位的,但无论如何都会给出一个想法)。
最后;我希望能够以比逻辑回归更高的成功率进行分类,但也能够有更多的概率,这样我就可以设置一个阈值并指出我不确定的那些。
有什么建议吗?
提前致谢。
【问题讨论】:
【参考方案1】:如果您有足够的数据,您可以简单地重新调整概率。例如,给定高斯分类器的“预测概率”输出,您可以返回(在保留的数据集上)并以不同的预测值估计正类的概率。
此外,您可以简单地对您的保留集进行优化,以确定最佳阈值(无需实际估计概率)。由于它是一维的,因此您甚至不需要为优化做任何花哨的事情——测试 500 个不同的阈值,然后选择一个将与错误分类相关的成本降至最低的阈值。
【讨论】:
以上是关于高斯贝叶斯分类器与逻辑回归的概率分类的主要内容,如果未能解决你的问题,请参考以下文章