数据分析一定要懂的定理——贝叶斯定理

Posted Leo.yuan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析一定要懂的定理——贝叶斯定理相关的知识,希望对你有一定的参考价值。

要讲清楚贝叶斯定理,就先要理解条件概率、先验后验、全概率这些概念

诶诶先别走啊,这次我们不干巴巴讲公式,直接举个例子说明:

(1)我最近10天内,有2天迟到,那么请问我今天迟到的概率是多少?
很显然,迟到的事件发生概率是2/10,也就是P(迟到)=1/5=20%,这就叫做先验概率

(2)今天早上堵车了,请问我迟到的概率是多少?
注意,这里已经不同于上个例子,“迟到”是一种事实结果,而造成迟到的原因可能是“堵车”,那么堵车就是一种影响事实结果的条件,这种情况下就属于条件概率,即

P(A | B)

它的公式也比较简单:

比如我近10天遭遇了5次堵车,其中2次迟到,那么今天早上如果又堵车了。。。

我迟到的概率就是40%,用公式计算就是:

P(迟到 | 堵车)
=P(堵车且迟到) / P(堵车)
=0.2/0.5
=0.4

(3)今天我又迟到了,那么是因为我早上堵车的概率是多少?
跟先验概率相反,我们由结果推导出原因的概率就叫做后验概率,也就是依据得到"结果"信息所计算出的原因发生的概率,即:

P(堵车 | 迟到)

这里“迟到”这个结果反而变成了条件概率当中的条件,这在我们生活中是非常常见的情况,比如“我中午拉肚子了,是因为昨天吃火锅的概率是多大?”

后验概率是贝叶斯定理的重要基础,你应该可以看出来,这种概率可以用来做原因推理

(4)我迟到的原因只可能是堵车、闹钟坏了、拉肚子三种情况中的一种,且这三种情况不可能同时发生,那么我今天如果又迟到了,造成的原因是什么的概率最大呢?

我们已经知道了引起迟到的所有条件,且这些条件都是相互独立且互斥的,

那么想要求出迟到的概率,就可以将这个复杂事件拆分成几个条件概率,比如迟到的概率可以拆分成:

P(迟到)
=P(堵车且迟到)+P(闹钟坏了且迟到)+P(拉肚子且迟到)
=P(堵车)*P(迟到 | 堵车)+P(闹钟坏了)*P(迟到 | 闹钟坏了)+P(拉肚子)*P(迟到 |拉肚子)
如果有多个事件,就可以用公式这么进行表达:

这就是全概率公式,简单来说就是用来进行复杂事件概率求算的。

那么回到问题,想要求哪个原因造成迟到的概率最大,

比如先求迟到的原因概率,就可以根据条件概率和全概率进行推导:

P(堵车 | 迟到)
=P(堵车且迟到)/ P(迟到)
=P(堵车)*(迟到 | 堵车) / P(堵车)*P(迟到 | 堵车)+P(闹钟坏了)*P(迟到 | 闹钟坏了)+P(拉肚子)*P(迟到 | 拉肚子)
用公式表达就是

如果你看到这里,那么恭喜你已经成功推导出了贝叶斯定理的公式。

其中不难发现,这个公式的分母其实就是全概率公式,也就是P(B),所以贝叶斯公式又可以写成下面这个形式:

其核心思想是当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。

贝叶斯的应用

如果你看到一个人总是做一些好事,则那个人大概率是一个好人。用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大,这就是贝叶斯的核心。

比如实际生活中,我们经常会用到贝叶斯推导,比如下面这个例子:

某零售企业有三家供货商,记为A1、A2、A3,其供应量和不合格率如下图所示


问题1:随机从该零售企业中抽取一个产品,其不合格的概率有多大呢?

典型的由因及果,可直接使用全概率公式计算,我们将不合格的事件用B表示:

P(B) = P(B|Ai) * P(Ai)
=P(B|A1) * P(A1) + P(B|A2) * P(A2) + P(B|A3) * P(A3)
=(500/150010%)+(400/150013%)+(600/1500*11%)
= 11.2%
因此,随机从该零售企业中抽取一个产品,其不合格的概率是11.2%;

问题2:如果抽到的某个产品是不合格的,最有可能是来自于哪个供货商呢?

典型的由果及因,可直接使用贝叶斯概率公式计算,我们先求A1供货商的概率:

P(A1|B)=P(A1) * P(B|A1) / P(B)
=(500/1500*10%)/ 11.2%
= 29.8%
同理,我们再求出A2、A3供货商的概率是30.9%、39.3%,所以如果抽到的某个产品是不合格的,最有可能是来自于A3供货商。

在实际的数据分析过程中,我们经常会用到贝叶斯概率的思想,比如我们去分析营销活动的渠道拉新效果,我们不能只针对结果进行分析。按照贝叶斯定律,我们不能忽略导致这个结果的前提条件。

这个前提条件的忽略最终可能影响了我们对整件事情的判断,这个前提条件就是:我们的投放渠道,这就是贝叶斯定理的本质。

以上是关于数据分析一定要懂的定理——贝叶斯定理的主要内容,如果未能解决你的问题,请参考以下文章

基于贝叶斯定理的算法——朴素贝叶斯分类

《机器学习》贝叶斯定理的运用

《机器学习》贝叶斯定理的运用

贝叶斯定理(贝叶斯分类)

[梁山好汉说IT] 以水浒传为例讲解贝叶斯定理

机器学习-朴素贝叶斯