最大熵分类中的“共识”

Posted

技术标签:

【中文标题】最大熵分类中的“共识”【英文标题】:"Consensus" Among Maximum Entropy Classifications 【发布时间】:2013-12-25 08:02:57 【问题描述】:

假设我们有三个类:A、B 和 C,我们使用标准 MaxEnt 分类器对文档“d”进行分类,并得出以下概率:

P(d, A) = 0.50
P(d, B) = 0.25
P(d, C) = 0.25

我觉得这在某种程度上与这组概率非常不同:

P(d, A) = 0.50
P(d, B) = 0.49
P(d, C) = 0.01

有没有办法对这两者之间的差异进行评分?

【问题讨论】:

【参考方案1】:

您面临的问题通常被称为分类器之间的“共识”。由于多标签 MaxEnt 可以看作是 N 个独立的分类器,您可以将其视为一组为不同类别“投票”的模型。

现在,计算这种“共识”的方法有很多,包括:

“幼稚”的边际计算 - “获胜”类概率与第二个概率之间的差异 - 边际越大 - 分类更有信心 熵 - 所得概率分布的熵越小,决策越有信心 一些涉及 KL 散度等的进一步方法。

一般来说,您应该考虑检测结果分布的“均匀性”(意味着不太自信的决定)或“尖峰”(表示更有信心的分类)的方法。

【讨论】:

+1 表示熵。有趣的事实:Max Ent 分类器之所以这样称呼,是因为它们试图在尊重训练数据的同时最大化 P(output|input) 的熵。在某种程度上,分类器试图找到与训练数据一致的最无偏概率分布。 均匀性是错误的——糟糕的概率模型通常会提供非常尖锐的后验,这完全是不正确的。您需要通过交叉熵(如您建议的 KL Divergence)引用正确的后验,以确保您的分布是正确的。毕竟,统一的后验可能实际上是准确的......【参考方案2】:

您正在寻找的是交叉熵:具体而言,您想要计算使用分类器输出的一个近似真实分布的成本。在许多情况下,概率多类分类器会直接对此进行优化。看看this。

【讨论】:

以上是关于最大熵分类中的“共识”的主要内容,如果未能解决你的问题,请参考以下文章

最大熵模型原理小结

逻辑回归与最大熵模型

逻辑斯谛回归与最大熵模型-《统计学习方法》学习笔记

逻辑斯谛回归,softmax回归与最大熵模型

logistic regression与最大熵模型·最大熵模型

logistic regression与最大熵模型·最大熵模型