朴素贝叶斯定理

Posted 彼岸星空

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了朴素贝叶斯定理相关的知识,希望对你有一定的参考价值。



贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发表了。这一发表不要紧,结果这篇论文的思想直接影响了接下来两个多世纪的统计学,是科学史上著名的论文之一。


贝叶斯原理跟我们的生活联系非常紧密。举个例子,如果你看到一个人总是花钱,那么会推断这个人多半是个有钱人。当然这也不是绝对,也就是说,当你不能准确预知一个事物本质的时候,你可以依靠和事物本质相关的事件来进行判断,如果事情发生的频次多,则证明这个属性更有可能存在。



贝叶斯定理



朴素贝叶斯模型原理

朴素贝叶斯定理


根据贝叶斯公式可得:

朴素贝叶斯定理

上式中概率P(C)和P(X)比较容易求出。关键是求解概率P(x|c)
朴素贝叶斯模型假定所有特征间都相互独立,英文名称为:naive bayesian model。
因此在各个特征间相互独立的前提假定下,P(x|c), 计算公式便可进一步推导为如下:

朴素贝叶斯定理

其中,d是样本的所有特征个数
因为各个属性间相互独立,所以P(x|c)的概率等于每个特征的类条件概率P(xi|c)的乘积。
因此,联立上面两个公式,可以得到如下公式:

朴素贝叶斯定理

由于对所有类别来说P(x)是相同的,因此贝叶斯分类器的目标函数进一步化简为如下:

朴素贝叶斯分类器的训练学习的过程便是基于训练数据,求得概率 P(c)并且为每个属性求得概率P(xi|c)然后相乘取最大值的过程。


我举一个简单的例子理解朴素贝叶斯定理


在一个盒子中有3台HUAWEI Mate40和2台iPhone12。如果不放回地依次抽取2台。
1.第一次抽到HUAWEI Mate40的概率是;
2.第一次和第二次都抽到HUAWEI Mate40的概率是;
3.在第一次抽到HUAWEI Mate40的条件下,第二次抽到HUAWEI Mate40的概率是。

解:设“第一次抽到HUAWEI Mate40”为事件A,“第二次抽到HUAWEI Mate40”为事件B,则“第一次和第二次都抽到HUAWEI Mate40”就是事件AB。
(1)从5台手机中不放回地依次抽取2台手机的事件数为。
n(总)=A2.5=5x4=20
根据分步乘法计数原理,n(A)=A1.3xA1.4=3x4=12。于是
P(A)=n(A)/n(总)=12/20=3/5

(2)因为n(AB)=A2.3=3x2=6, 所以
P(AB)=n(AB)/n(总)=6/20=3/10
(3)由(1)(2)可得,在“第一次抽到HUAWEI Mate40的条件下,第二次抽到HUAWEI Mate40”的概率为
P(B|A)=P(AB)/P(A)=3/10/3/5=1/2
第三问你可能会问为什么会是这样(我来解释下: 一二次都抽到HUAWEI Mate40是以确定的事件 )( 而第一问呢:第一抽到HUAWEI Mate40,第二抽是有两种的,可能是抽到HUAWEI Mate40,或者是抽到iPhone12 )所以第一问的概率包括有第二问2次都抽到HUAWEI Mate40的概率。

贝叶斯公式是要找出组成发生事件A的各个样本空间,然后预测事件A的发生来自于Bi的概率。

朴素贝叶斯模型原理

纸上谈兵没多大意义,来点实战吧,不知道你们玩不玩基金,反正我是玩,赚点零花钱花。我们都知道股票基金中的前十大组合股中牛股越多则基金的收益就越好。现在我就分别从科技基金,医药基金,消费基金,新能源基金这四只不同的基金中选取前四大持仓的股票做为研究数据。研究影响股票增长的因素,何为牛股(就是从上个季度6.30号开始到现在没有跟大盘下跌,反而还不断创新高度的股票)声明:我举这个例子只是为了探究朴素贝叶斯定理在生活中的运用,没有叫人玩基金的意思,毕竟玩股票基金和股票一样风险巨大。


股票
每季净利润增长

每季营业收入 每季每股收益增长 牛股
1
82.44%
49.08%
72.45%

2
29.79%
-12.15%
25.00%

3 5.13%
5.48%
5.70%

4
49.65%
44.02
34.86%

5
10.63%
22,.17%
10.34%

6
100.00%
-6.78%
87.52%

7
-18.35%
-16.66%
-23.88

8 94.79%
188.97%
98.00%

9
-3.10% -4.06%
-4.74%
10 0.04%
16.46%
0.02%

11
82.19%
17.55%
-23.46%

12
33.67%
18.63%
15.09%

13
172.54%
11.94%
131.37%

14
19.11%
8.74%
19.16%

15
172.54%
11.94%
131.37%
16 20.99%
25.07%
21.00%

(以上数据取自各股票公司的报表)


假定,股票的三个特征:、每季净利润增长每季营业收入增长每季每股收益增长是相互独立的,言外之意它们之间没有相关关系。这就是朴素贝叶斯中朴素的含义所在。


好还是一般

根据学习经验,我们先以提出的问题为线索,从具体的求解问题中摸索出朴素贝叶斯模型的基本原理,这样有助于大家迅速掌握朴素贝叶斯模型。


定义股票的情况为事件 B,事件 B 取值为好股或一般,概率P(B)求解方法:每类样本的个数除以所有样本个数,因此:


P(B=牛股)=6/16

P(B=一般股)=10/16


每个特征的条件概率等于此类别和特征下样本个数除以此类别的样本个数,因此:

1.每季净利润增长:(条件:1>2>3)

P(朴素=每季净利润增长|B=牛股)=4/6(4为条件个数,6为牛股个数)

P(朴素=每季净利润增长|B=一般股)=5/10


2.每季营业收入增长:(条件:2>1>3)

P(朴素=每季营业收入增长|B=牛股)=1/6

P(朴素=每季营业收入|B=一般股)=4/10


3.每季每股收益增长:(条件:3>2>1)

P(朴素=每季每股收益增长|B=牛股)=1/6

P(朴素=每季每股收益增长|B=一般股)=1/10


探究每季净利润增长每季营业收入增长每季每股收益增长这三个因素谁对股票的成长影响最大。

每季净利润增长


P(B=牛股)xP(朴素=每季净利润增长|B=牛股)xP(朴素=每季营业收入增长|B=一般股)xP(朴素=每季每股收益增长|B=一般股)=6/16x4/6x4/10x1/10=0.01


每季营业收入增长


P(B=牛股)xP(朴素=每季净利润增长|B=一般股)xP(朴素=每季营业收入增长|B=牛股)xP(朴素=每季每股收益增长|B=一般股)=6/16x5/10x1/6x1/10=0.003


每季每股收益增长

P(B=牛股)xP(朴素=每季净利润增长|B=一般股)xP(朴素=每季营业收入增长|B=一般股)xP(朴素=每季每股收益增长|B=牛股)=6/16x5/10x4/10x1/6=0.0125


因为0.0125>0.01>0.003,所以对股票的成长影响最大:每季每股收益增长>每季净利润增长>每季营业收入增长




以上是关于朴素贝叶斯定理的主要内容,如果未能解决你的问题,请参考以下文章

朴素贝叶斯算法总结

朴素贝叶斯以及三种常见模型推导

朴素贝叶斯的理解

为什么朴素贝叶斯定理会被叫做朴素的?

朴素贝叶斯(naive bayes)

朴素贝叶斯与贝叶斯网络