使用熵的加权决策树

Posted

技术标签:

【中文标题】使用熵的加权决策树【英文标题】:Weighted Decision Trees using Entropy 【发布时间】:2010-11-11 02:15:13 【问题描述】:

我正在使用mutual information gain 作为拆分函数构建一个二元分类树。但由于训练数据偏向少数类,建议通过逆类频率对每个训练示例进行加权。

如何加权训练数据?在计算估计熵的概率时,我是否采用加权平均?

编辑:我想要一个带有权重的熵表达式。

【问题讨论】:

反类频率不是你的权重因子吗? 是的,正如问题中提到的,“建议通过逆类频率对每个训练示例进行加权。” 我假设你已经知道 Wiki 信息。那么你想解决什么问题呢? 好的,我已经编辑了问题并评论了答案以反映新的变化。 【参考方案1】:

您引用的***文章涉及加权。它说:

加权变体 在传统的互信息公式中,

由 (x,y) 指定的每个事件或对象由相应的概率 p(x,y) 加权。这假设所有对象或事件除了它们发生的概率之外都是等价的。但是,在某些应用程序中,某些对象或事件可能比其他对象或事件更重要,或者某些关联模式在语义上比其他模式更重要。

例如,确定性映射 (1,1),(2,2),(3,3) 可能被视为比确定性映射 (1,3),( 2,1),(3,2),尽管这些关系会产生相同的互信息。这是因为互信息对变量值中的任何固有顺序完全不敏感(Cronbach 1954、Coombs & Dawes 1970、Lockhead 1970),因此对相关变量之间的关系映射形式完全不敏感.如果希望前一个关系(在所有变量值上表现出一致)被判断为比后一个关系更强,那么可以使用以下加权互信息(Guiasu 1977)

对每个变量值共现的概率 p(x,y) 赋予权重 w(x,y)。这允许某些概率可能比其他概率具有或多或少的重要性,从而允许对相关的整体或 prägnanz 因素进行量化。在上面的示例中,对 w(1,1)、w(2,2) 和 w(3,3) 使用较大的相对权重将具有评估关系 (1,1),( 2,2),(3,3) 而不是关系 (1,3),(2,1),(3,2),这在某些模式识别等情况下可能是可取的。

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants

【讨论】:

是的,我意识到了这一点。我希望有一个加权版本的熵。我使用各种熵估计来计算类似于互信息的分数。【参考方案2】:

将状态值加权熵作为衡量投资风险的指标。http://www56.homepage.villanova.edu/david.nawrocki/State%20Weighted%20Entropy%20Nawrocki%20Harding.pdf

【讨论】:

以上是关于使用熵的加权决策树的主要内容,如果未能解决你的问题,请参考以下文章

决策树学习

决策树——公式推导

决策树 ID3方法

使用 Adaboost 的决策树/树桩

集成学习 - 决策树-随机森林

机器学习——决策树