B-经济学-基尼指数

Posted nickchen121

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了B-经济学-基尼指数相关的知识,希望对你有一定的参考价值。

更新、更全的《机器学习》的更新网站,更有python、go、数据结构与算法、爬虫、人工智能教学等着你:https://www.cnblogs.com/nickchen121/

基尼指数

一、基尼指数简介

基尼指数(gini coefficient)代表了模型的不纯度,基尼指数越小,则不纯度越低;基尼指数越大,则不纯度越高,这和信息增益比是相反的。

假设一个训练集有(K)个类别,样本属于第(k)个类别的概率为(p_k),则它的基尼指数为
[ G(p) = sum_{k=1}^K p_k (1-p_k) = 1 - sum_{k=1}^K p_k^2 ]
如果是二分类问题,其中一个分类的概率为(p),则它的基尼指数为
[ G(p) = 2 p(1-p) ]
对于某一个训练集(D),假设训练集有(K)个类别,并且第(k)个类别有(C_k)个样本,则(D)的基尼指数为
[ G(D) = 1 - sum_{k=1}^K ({frac {|C_k|} {|D|}})^2 ]
对于某一训练集(D),如果根据特征(T)的某个特征值是否等于(t)(D)分成两个子集(D_1)(D_2)
[ D_1 = {(x,y)in{D}|A(x)=t},quad D_2 = D-D_1 ]
(D)的基尼指数为
[ G(D,A) = ({frac {|D_1|} {|D|}})G(D_1) + ({frac {|D_2|} {|D|}})G(D_2) ]
基尼指数(G(D))表示(D)的不确定性,基尼指数(G(D,A))表示经过(T=t)分割后(D)的不确定性。基尼指数越大,样本集合的不确定性也就越大,不纯度越高。

以上是关于B-经济学-基尼指数的主要内容,如果未能解决你的问题,请参考以下文章

经济指标

python里怎么计算信息增益,信息增益比,基尼指数

使用基尼指数的决策树

如何获取决策树中的所有基尼指数?

CART决策树----基尼指数划分

基尼指数的计算