朴素贝叶斯分类器的准确性?

Posted

技术标签:

【中文标题】朴素贝叶斯分类器的准确性?【英文标题】:Accurancy of Naive Bayesian classifier? 【发布时间】:2012-07-31 07:24:43 【问题描述】:

我们可以使用朴素贝叶斯分类器的准确率百分比来检查分类器的准确度吗?

【问题讨论】:

见Cross validation 【参考方案1】:

通常在机器学习中,我们会查看特异性与敏感性来评估分类器的性能。 http://en.wikipedia.org/wiki/Sensitivity_and_specificity

由于通常在真阳性、假阳性、真阴性和假阳性之间进行权衡,因此确定在您正在查看的特定应用程序中更重要的是什么。

这与交叉验证相结合,并可能对您随机分配决策变量的数据集进行预测,应该可以让您了解您的分类器有多好。

请记住,没有预测器性能的简单答案。例如,您想对一个数据集进行分类,其中 99 个样本属于 A 类,其中 1 个属于 B 类。构建分类器以将所有示例分类为 A 将具有 99% 的灵敏度,但仍然不是非常有用。

【讨论】:

类中训练集的样本数是否应该差不多?这会影响分类器的准确率吗? 它可能会增加分类器的能力,是的。如果它们的尺寸差异很大,明智的做法是对大的进行采样,或者对较小的进行引导。对于这些概念的深入讨论,我推荐这本书:www-stat.stanford.edu/~tibs/ElemStatLearn(可在链接页面上免费获得)【参考方案2】:

这是您可以使用的另一个建议。 在信息检索中,F-score是常用的评价标准, 其中 F-score 包含两个因素。 1. 召回 = tp / (tp + fn) 2. 精度 = tp / (tp+fp)

(tp = 真阳性...等)

F-score = (2*recall*presicion) / (recall + precision)

正如约翰所说,评估标准因情况而异。 例如,在多标签问题中,有些可能还会考虑 Hamming Loss 或 Ranking Loss。 我认为在大多数单标签情况下,F-score 是最受欢迎的。

【讨论】:

以上是关于朴素贝叶斯分类器的准确性?的主要内容,如果未能解决你的问题,请参考以下文章

sklearn:朴素贝叶斯分类器的准确性低

朴素贝叶斯分类器

如何在垃圾邮件过滤中嵌入带有朴素贝叶斯分类器的关联规则?

如何生成混淆矩阵并找到朴素贝叶斯分类器的错误分类率?

贝叶斯分类器(3)朴素贝叶斯分类器

数据挖掘中的朴素贝叶斯分类器