极大似然估计最小二乘法及朴素贝叶斯

Posted dqhl1990

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了极大似然估计最小二乘法及朴素贝叶斯相关的知识,希望对你有一定的参考价值。

极大似然估计、最小二乘法及朴素贝叶斯


1. 问题定义

样本集 D D D中的样本都是独立同分布,且样本数为 m m m
D = ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , . . .   , ( X m , Y m ) D=\\(X_1, Y_1), (X_2, Y_2), ...\\ ,(X_m,Y_m)\\ D=(X1,Y1),(X2,Y2),... ,(Xm,Ym)
其中, X k = x 1 , x 2 , . . .   , x n X_k=\\x_1, x_2, ...\\ ,x_n\\ Xk=x1,x2,... ,xn是第 k k k个样本的 n n n个特征项, X k ∈ R n X_k\\in\\mathbbR^n XkRn Y k Y_k Yk是第 k k k个样本的类别, Y k ∈ R 1 Y_k\\in\\mathbbR^1 YkR1 Y k ∈ Y = y 1 , y 2 , . . .   , y v Y_k\\in Y=\\y_1, y_2, ...\\ ,y_v\\ YkY=y1,y2,... ,yv,其中 Y Y Y是类别的空间, Y ∈ R v Y\\in\\mathbbR^v YRv

要解决的问题为,在已知样本和其所属的类别的条件下,求得某个样本是某一类别的概率。

2. 贝叶斯决策

首先看经典的贝叶斯公式:

(1) P ( y ∣ x ) = P ( x ∣ y ) P ( y ) P ( x ) P(y|x) = \\fracP(x|y)P(y)P(x)\\tag1 P(yx)=P(x)P(xy)P(y)(1)

按照上述问题定义,可将贝叶斯公式写为:
(2) P ( y ∣ X ) = P ( X ∣ y ) P ( y ) P ( X ) P(y|X) = \\fracP(X|y)P(y)P(X)\\tag2 P(yX)=P(X)P(Xy)P(y)(2)
由于每个类别都是独立的,则:
(3) P ( y ∣ X ) = P ( X ∣ y ) P ( y ) ∑ i = 1 v P ( X ∣ y i ) P ( y i ) P(y|X) = \\fracP(X|y)P(y)\\sum_i=1^vP(X|y_i)P(y_i)\\tag3 P(yX)=i=1vP(Xyi)P(yi)P(Xy)P(y)(3)

在这里,我们称:
P ( y ) P(y) P(y)为先验概率

P ( X ∣ y ) P(X|y) P(Xy)为条件概率

P ( y ∣ X ) P(y|X) P(yX)为后验概率

P ( X ) P(X) P(X)为先验概率

3. 朴素贝叶斯

根据上式(3)我们能够看到,在某一个样本所具有的的特征 X X X条件下,该样本属于某一种类别的概率 P ( y ∣ X ) P(y|X) P(yX)的相对大小与分母无关(在各个条件概率计算过程中,分母的值都相同,而且等于各个条件概率中分子值的和,因此,在计算得到各个分子后求和,也就得到了分母的值)。

因此,在构建朴素贝叶斯时,我们可以先忽略分母 P ( X ) P(X) P(X),着重求解分子。

对于分子中的先验概率 P ( y ) P(y) P(y),我们可以通过样本数据集 D D D来统计得到。

而对于分子中的条件概率 P ( X ∣ y ) P(X|y) P(Xy),我们也可以根据样本数据集中出现的样本来估计条件概率。但是,在实际中, X X X往往包含多个特征,在样本中往往不能包含属性值的所有可能组合(假设每个属性都是二值属性,那么就有 2 n 2^n 2n中属性之间的组合),那么在样本集中,很多的 P ( X ∣ y ) P(X|y) P(Xy)都会为0。然而,这些样本仅仅可能是我们的数据集中并没有观察到而并非真的不存在。

这时,朴素贝叶斯的条件独立性假设就发挥作用了。

通过条件独立性假设,我们可以将公式(3)改写为:

(4) P ( y ∣ X ) = P ( X ∣ y ) P ( y ) ∑ i = 1 v P ( X ∣ y i ) P ( y i ) = P ( x 1 , x 2 , . . .   , x n ∣ y ) P ( y ) ∑ i = 1 v P ( X ∣ y i ) P ( y i ) = ∏ j = 1 n P ( x j ∣ y ) P ( y ) ∑ i = 1 v P ( X ∣ y i ) P ( y i ) P(y|X) = \\fracP(X|y)P(y)\\sum_i=1^vP(X|y_i)P(y_i) = \\fracP(x_1,x_2,... \\ ,x_n|y)P(y)\\sum_i=1^vP(X|y_i)P(y_i) = \\frac\\prod_j=1^nP(x_j|y)P(y)\\sum_i=1^vP(X|y_i)P(y_i)\\tag4 P(yX)=i=1vP(Xyi)P(yi)P(Xy)P(y)=i=1vP(Xyi)P(yi)P(x1,x2,... ,xny)P(y)=i=1以上是关于极大似然估计最小二乘法及朴素贝叶斯的主要内容,如果未能解决你的问题,请参考以下文章

4-4 朴素贝叶斯 贝叶斯估计算法过程

统计学习方法四 朴素贝叶斯分类

贝叶斯分类器(2)极大似然估计、MLE与MAP

朴素贝叶斯与逻辑回归

朴素贝叶斯

朴素贝叶斯(naive bayes)原理小结