SPARK ML,朴素贝叶斯分类器:一类的高概率预测
Posted
技术标签:
【中文标题】SPARK ML,朴素贝叶斯分类器:一类的高概率预测【英文标题】:SPARK ML, Naive Bayes classifier: high probability prediction for one class 【发布时间】:2016-03-22 19:24:37 【问题描述】:我正在使用 Spark ML 优化朴素贝叶斯多类分类器。
我有大约 300 个类别,我正在对文本文档进行分类。 训练集足够平衡,每个类别大约有 300 个训练样例。
一切看起来都不错,分类器在未见过的文档上以可接受的精度工作。但是我注意到,在对新文档进行分类时,分类器通常会为其中一个类别分配高概率(预测概率几乎等于 1),而其他类别的概率非常低(接近于零) .
这可能是什么原因?
我想补充一点,在 SPARK ML 中有一种叫做“原始预测”的东西,当我查看它时,我可以看到负数,但它们或多或少具有可比性,因此即使是概率高的类别也有可比较的原始预测分数,但我在解释这个分数时发现了困难。
【问题讨论】:
从逻辑上讲,有两种类型的未见文档,一种是可能推断未见过的特征,在预测前的向量变换过程中会被移除,另一种是已经属于训练的特征放。那么你看不见的文件放在哪里呢? 它们适合第二种情况 eliasah。 您是否尝试分析整个训练集和每个班级之间的单词分布? 我的意思是我正在使用相同的特征提取方法,即 HashingTF win 5000 作为特征编号。 不,我没有分析整个训练集上的单词分布。 【参考方案1】:让我们从朴素贝叶斯分类器的一个非常非正式的描述开始。如果 C 是所有类的集合,d 是文档,xi 是特征,则朴素贝叶斯返回:
由于 P(d) 对于所有类都是相同的,我们可以将其简化为
在哪里
由于我们假设特征是条件独立的(这就是它幼稚的原因),我们可以进一步简化(通过拉普拉斯校正避免零):
这个表达式的问题是,在任何不平凡的情况下,它在数值上都等于 0。为避免我们使用以下属性:
并将初始条件替换为:
这些是您作为原始概率获得的值。由于每个元素都是负数((0, 1] 中的值的对数),因此整个表达式也具有负值。正如您自己发现的这些值 are further normalized 所以最大值等于 1 并除以总和归一化值
请务必注意,虽然您获得的值并非严格意义上的 P(c|d),但它们保留了所有重要属性。顺序和比率完全相同(忽略可能的数字问题)相同。如果没有其他类别的预测接近 1,则意味着,鉴于证据,这是一个非常强的预测。所以它实际上是你想看到的。
【讨论】:
感谢@zero323 的详细回答。我从我的数据中注意到的是,当我们有大量类时(例如,在我的情况下,我有 ~300 个),日志的总和将导致大的负值(例如 -2081、-2092 等)和在这种情况下,我确实知道我们如何判断得分为 -2081 的班级比得分为 -2092 的班级更有可能,这两个得分对我来说已经足够接近了。在这种情况下,您提到的规范化公式似乎旨在支持一个班级并惩罚其余班级。正如您向我建议的那样,我可以实现自己的规范化功能。 这些值之间也存在巨大差异。 exp(-2081) 大约为 1e-904,而 exp(-2090) 接近 1e-908。 没错,我试图用一个例子来挑战你的答案,但我做不到。再次感谢以上是关于SPARK ML,朴素贝叶斯分类器:一类的高概率预测的主要内容,如果未能解决你的问题,请参考以下文章