从辛普森悖论开始学习贝叶斯分类器

Posted 补天之心司马昭

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从辛普森悖论开始学习贝叶斯分类器相关的知识,希望对你有一定的参考价值。

莫听穿林打叶声,何妨吟啸且徐行。竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。

料峭春风吹酒醒,微冷,山头斜照却相迎。回首向来萧瑟处,归去,也无风雨也无晴。

——苏轼  定风波


大文豪苏轼在这首词之前加了解释说明:三月七日,在沙湖道上赶上了下雨,拿着雨具的仆人先前离开了,同行的人都觉得很狼狈,只有我不这么觉得。过了一会儿天晴了,就做了这首词。也就是说,当时苏轼一行人发生了误判,认为不会下雨,于是让仆人带着伞先行离开。然而,春天下雨的先验概率是很高的,回首向来萧瑟处,后验概率又是多少呢?苏轼说:无所谓,回吧,也无风雨也无晴。


读罢苏轼汪洋恣肆的大作,我们开始主题。贝叶斯流派的一堆公式,相信很多人都学得云里雾里,这是因为我们在学习贝叶斯时,统计学甚至没有入门。



1  统计学的事件

辛普森悖论可以帮助我们理解和记住“事件”的概念。


经典的佛罗里达死刑悖论。


1991年,科罗拉多大学的统计学家 Michael L. Radelet 和东北大学的社会学研究院主任 Glenn Pierce 重新查看了1976-1987年间美国佛罗里达州的谋杀案的审判数据,发现了重大的司法不公正事件。下表中,事件A是犯罪嫌疑人是白人被判死刑,事件B是犯罪嫌疑人是黑人被判死刑。可以看出,事件A 和事件B 发生的概率差不多。


从辛普森悖论开始学习贝叶斯分类器


然而,如果定义事件C为受害人是白人,事件D为受害人是黑人,那么P(A|C)是受害人是白人条件下,嫌疑人是白人被判死刑的概率,下表的统计数据表明,歧视明显!


从辛普森悖论开始学习贝叶斯分类器

2  条件概率和联合概率

从辛普森悖论开始学习贝叶斯分类器



从辛普森悖论开始学习贝叶斯分类器

首先,从Venn diagram容易理解条件概率的分母是蓝圈(相对于黄圈加蓝圈)。结合具体例子,从上面的监狱的例子可以看出,P(BC)是两个事件都发生:犯罪嫌疑人是黑人被判死刑,受害人是白人。那么事件B包含了受害人是黑人。P(BC)=P(B|C)P(C)这个贝叶斯公式简洁的告诉你,联合概率等于条件C概率 ×条件C发生的概率。如果条件C发生的概率是100%,那么联合概率等于条件概率。


另一方面,发挥乘法的洞察力,P(BC)=P(CB)=P(C|B)P(B),所以P(B|C)=P(C|B)P(C)/P(C)。——主角华丽登场。

3  贝叶斯推断

从辛普森悖论开始学习贝叶斯分类器

我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断(比如春天容易下雨)。P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。P(B|A)/P(B)称为"似然函数"(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。


所以,条件概率可以理解成下面的式子:


后验概率 = 先验概率 x 调整因子


例子:人工智能诊断假阳性问题,False Positive(FP)


已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现人工智能准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?


假定A事件表示得病,那么P(A)为0.001。这就是"先验概率",即没有做试验之前,我们预计的发病率。再假定B事件表示阳性,那么要计算的就是P(A|B)。这就是"后验概率",即做了试验以后,对发病率的估计。


根据全概率公式


从辛普森悖论开始学习贝叶斯分类器


从辛普森悖论开始学习贝叶斯分类器


结果令人震惊,P(A|B)约等于0.019。也就是说,误报率是5%的AI检验呈现阳性,病人得病的概率只有2%左右。


这也是为什么人工智能领域,TPR即为敏感度(sensitivity),TNR即为特异度(specificity)这两个指标非常重要。


TPR:true positive rate,描述识别出的所有正例占所有正例的比例

计算公式为:TPR=TP/ (TP+ FN)


TNR:true negative rate,描述识别出的负例占所有负例的比例

计算公式为:TNR= TN / (FP + TN)


注:TP:True Positive. TN:True Negative. FN:False Negative.

4  贝叶斯分类器

Van trees 在1968年定义了贝叶斯假设检验二分类的平均风险:

从辛普森悖论开始学习贝叶斯分类器

式中,C1,C2是两类;H1,H2是两个子空间。上式结合贝叶斯公式很好理解,p1, p2是先验概率,即C1,C2发生的概率,p1+p2=1。条件概率p(x|Ci)即类Ci的条件下,向量x来自子空间Hj的概率。那么该式子前两项是正确分类(以第一项举例即联合概率:C1发生,x属于H1也发生),后两项是错误分类。cij定义为正确分类和错误分类的代价权重。


以下推导堪称经典。

全集 H = H1 +  H2,那么

从辛普森悖论开始学习贝叶斯分类器

并且c11<c21, c22<c12, furthermore,


从辛普森悖论开始学习贝叶斯分类器

Hence,



我们的策略是最小化风险R,上式前两项是固定的常数,那么第三项小于零将能使得风险减小,而第三项积分域是H1,那么被积项小于0就把向量x划分为H1,被积分项大于0就划分给H2。整理如下

贝叶斯分类器即是比较上面两个式子大小而进行分类。

5  小结

换个角度,学习统计学基础,那么贝叶斯的学习困难也迎刃而解。回顾概率空间的三元论。A probability space is a triplet (Ω,F,P). The first component, Ω, is a nonempty set. Each element ω of Ω is called an outcome and Ω is called the sample space. The second component, F, is a set of subsets of Ω called events. The set of events F is assumed to  be a σ-algebra.P is a probability measure on F. 


F事件集是西格玛代数,如上文中监狱的例子,事件的取法有很多种,因此该集和样本集的关系是:


 Ω ∈ F


而不是相反。F集是Ω集的子集的集合,包含Ω本身,这也是西格玛求和的意思。



欢迎关注!本客栈主要活动为围炉夜话说历史、中小学教育。科学史也是历史,而中小学涉及的知识都是千百年前的知识了,当属科学史。

以上是关于从辛普森悖论开始学习贝叶斯分类器的主要内容,如果未能解决你的问题,请参考以下文章

从朴素贝叶斯分类器到贝叶斯网络(下)

从朴素贝叶斯分类到贝叶斯网络

贝叶斯分类器(3)朴素贝叶斯分类器

机器学习九大算法---朴素贝叶斯分类器

机器学习——朴素贝叶斯算法

机器学习:贝叶斯分类器——高斯朴素贝叶斯分类器代码实现