朴素贝叶斯分类

Posted 禺垣

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了朴素贝叶斯分类相关的知识,希望对你有一定的参考价值。

一、朴素贝叶斯法原理

1.基本原理

  朴素贝叶斯法(Naive Bayes)是一种基础分类算法,它的核心是贝叶斯定理+条件独立性假设。贝叶斯定理描述的是两个条件概率之间的关系,对两个事件A和B,由乘法法则易知 P ( A ∩ B ) = P ( A ) P ( B │ A ) = P ( B ) P ( A │ B ) P(A∩B)=P(A)P(B│A)=P(B)P(A│B) P(AB)=P(A)P(BA)=P(B)P(AB)
  贝叶斯定理就是对这个关系式的变形,即
P ( B │ A ) = P ( B ) P ( A ∣ B ) P ( A ) P(B│A)=\\fracP(B)P(A|B)P(A) P(BA)=P(A)P(B)P(AB)
  若把样本特征和类别作为对应的条件和条件概率,则贝叶斯定理可以用来解决分类问题。如对样本 x = ( x 1 , x 2 , . . . , x n ) x=\\left( x_1,x_2,...,x_n \\right) x=(x1,x2,...,xn),所属类别为 y y y,那么该特征下对应该类别的概率代入贝叶斯公式就是 P ( y ∣ x 1 , x 2 , . . . , x n ) = P ( y ) P ( x 1 , x 2 , . . . , x n ∣ y ) P ( x 1 , x 2 , . . . , x n ) P(y|x_1,x_2,...,x_n)=\\fracP(y)P(x_1,x_2,...,x_n|y)P(x_1,x_2,...,x_n) P(yx1,x2,...,xn)=P(x1,x2,...,xn)P(y)P(x1,x2,...,xny)
  贝叶斯分类法的思想就是计算样本特征对应于各类别的概率,以概率最大的作为分类输出。分母部分是特征的联合概率,可以进一步由全概率公式展开;分子部分由于含复杂的条件概率,使得直接的计算较复杂,因此这里做一个条件独立性假设,即认为样本的各维特征间是相互独立的,这是一个较强的假设,朴素贝叶斯也由此得名。在该条件之下,分子便可化为 P ( y ) ∏ i = 1 n P ( x i ∣ y ) P(y)\\prod_i=1^nP(x_i|y) P(y)i=1nP(xiy)
  注意到,在用于分类决策时,分母部分的值对于所有的类别都是相同的,要找出最大概率对应的类别,只考察分子即可。因此,朴素贝叶斯分类器表示为 y ^ = arg ⁡ m a x y k P ( y k ) ∏ i = 1 n P ( x i ∣ y k ) \\haty=\\arg max_y_kP(y_k)\\prod_i=1^nP(x_i|y_k) y^=argmaxykP(yk)i=1nP(xiyk)

2.平滑处理

  在离散特征的情形之下进行分类输出的概率计算,可能会出现概率为0的情况,如随机变量观测值的某一维并未在训练集中出现,那么它所属的条件概率为0,致使对应类别的后验概率为0,从而使分类产生偏差,这是不合理的,因此需进行一定的平滑处理。具体,就是在频率计算时,对每组统计的频数加上一个常数。
先验概率: P ( y k ) = ∑ i = 1 N I ( y i = y k ) + λ N + K λ P(y_k)=\\frac\\sum_i=1^NI(y_i=y_k)+\\lambdaN+K\\lambda P(yk)=N+Kλi=1NI(yi=yk)+λ
条件概率: P ( x i ∣ y k ) = ∑ i = 1 N I ( x i , y i = y k ) + λ ∑ i = 1 N I ( y i = y k ) + S λ P(x_i|y_k)=\\frac\\sum_i=1^NI(x_i,y_i=y_k)+\\lambda\\sum_i=1^NI(y_i=y_k)+S\\lambda P(xiyk)=i=1NI(yi=yk)+Sλi=1NI(xi,yi=yk)+λ
  当 λ = 1 \\lambda=1 λ=1时,称为拉普拉斯平滑(Laplace smoothing)。

3.三个基本模型

  根据特征随机变量的类型,分为伯努利朴素贝叶斯、多项式朴素贝叶斯、高斯朴素贝叶斯三种基本模型。
(1) 伯努利朴素贝叶斯
  若特征随机变量符合的是离散型的二项分布,也就是仅布尔值,那么此时的模型称为伯努利朴素贝叶斯。从统计的角度,分类器表达式分子中的连乘运算对应于n次独立试验。
(2) 多项式朴素贝叶斯
  若特征随机变量符合的是离散型的多项分布,那么此时的模型称为多项式朴素贝叶斯。同样地,分类器表达式分子中的连乘运算对应于n次独立试验。
(3) 高斯朴素贝叶斯
  若特征随机变量是连续型的(如身高、体重),即假定它是符合高斯分布的(正态分布),概率的计算就是由已知的数据计算出高斯分布的两个参数(均值、标准差),进而由密度函数确定对应的取值,代入公式计算。同样地,分类器表达式分子中的连乘运算对应于n次独立试验。

二、示例

  这里对多项式朴素贝叶斯分类模型举例。
训练集:

样本特征向量X类别Y
[1, 1, 2, 3]1
[1, 2, 2, 4]2
[1, 2, 3, 3]2
[1, 2, 4, 4]3
[1, 3, 3, 4]3
[2, 2, 3, 4]1
[2, 1, 3, 3]3

测试样本:[1, 2, 3, 4]

则类别集合为 Y ∈ 1 , 2 , 3 Y\\in\\left\\ 1,2,3 \\right\\ Y1,2,3 ,
P ( Y = 1 ) = 2 7 P(Y=1)=\\frac27 P(Y=1)=72, P ( Y = 2 ) = 2 7 P(Y=2)=\\frac27 P(Y=2)=72, P ( Y = 3 ) = 3 7 P(Y=3)=\\frac37 P(Y=3)=73,
P ( X 1 = 1 ∣ Y = 1 ) = 1 2 P\\left( X_1=1|Y=1 \\right)=\\frac12 P(X1=1∣Y=1)=21, P ( X 2 = 2 ∣ Y = 1 ) = 1 2 P\\left( X_2=2|Y=1 \\right)=\\frac12 P(X2=2∣嫁还是不嫁?朴素贝叶斯及其他

机器学习系列--Naive Bayes Classification

大数据:Spark mlib Naive bayes朴素贝叶斯分类之多元朴素贝叶斯源码分析

「数据分类」朴素贝叶斯算法

4-4 朴素贝叶斯 贝叶斯估计算法过程

朴素贝叶斯