贝叶斯分类器分数代表啥?

Posted

技术标签:

【中文标题】贝叶斯分类器分数代表啥?【英文标题】:What does a Bayesian Classifier score represent?贝叶斯分类器分数代表什么? 【发布时间】:2011-06-21 02:51:00 【问题描述】:

我正在使用ruby classifier gem,它的分类方法返回针对训练模型分类的给定字符串的分数。

分数是百分比吗?如果有,最大差是100分吗?

【问题讨论】:

【参考方案1】:

这是概率的对数。对于一个大的训练集,实际概率是非常小的数字,所以对数更容易比较。从理论上讲,分数的范围从无限接近零到负无穷。 10**score * 100.0 会给你实际的概率,确实最大相差100。

【讨论】:

+1 我刚刚检查了source 中的classifications 方法,你就在正确的轨道上。 这是有道理的,但我仍在为实际概率的公式而苦苦挣扎。我的一套的典型分数是-8.84。所以 10*(-8.84)*100 = 840。我仍然缺少一些东西。 您似乎将 10 乘以 -8.84。您必须将 10 提升到“-8.84”次方。 分类器没有给出概率,也没有给出一个的对数。在计算每个类别的分数时,朴素贝叶斯方程中的分母被删除,因为它不影响分类结果。这也可以在 Classifier gem here 的源代码中看到。它计算的是相对概率,而不是绝对概率。【参考方案2】:

实际上要计算以b为基数的典型朴素贝叶斯分类器的概率,就是b^score/(1+b^score)。这是逆 logit (http://en.wikipedia.org/wiki/Logit) 但是,鉴于 NBC 的独立性假设,这些分数往往过高或过低,并且以这种方式计算的概率将在边界处累积.最好计算保持集中的分数,并对分数进行准确(1 或 0)的逻辑回归,以更好地了解分数和概率之间的关系。

来自 Jason Rennie 的一篇论文: 2.7 朴素贝叶斯输出通常过于自信 文本数据库经常有 10,000 到 100,000 个不同的词汇;文档通常包含 100 个或更多 条款。因此,有很大的复制机会。 为了了解有多少重复,我们训练了一个 MAP Naive Bayes 20 个新闻组文档中 80% 的模型。我们产生了 p(cjd;D) (后) 剩余 20% 数据的值,并显示关于 maxc p(cjd;D) 的统计信息 表 2.3。这些值是高度过度自信的。 60%的测试文件被分配 四舍五入到 9 位小数时的 1 后验。与逻辑回归不同,Naive 贝叶斯未优化以产生合理的概率值。逻辑回归 执行线性系数的联合优化,收敛到适当的 具有足够训练数据的概率值。朴素贝叶斯优化系数 一个接一个。只有当独立性假设时,它才会产生现实的输出 成立。当特征包含重要的重复信息时(通常是 文本的情况),朴素贝叶斯提供的后验是高度过度自信的。

【讨论】:

以上是关于贝叶斯分类器分数代表啥?的主要内容,如果未能解决你的问题,请参考以下文章

基于朴素贝叶斯分类器的情感分析

朴素贝叶斯分类器

贝叶斯分类器(3)朴素贝叶斯分类器

贝叶斯分类器(1)贝叶斯决策论概述、贝叶斯和频率、概率和似然

机器学习系列-朴素贝叶斯分类器

数据挖掘-贝叶斯分类器