《模式识别》
Posted victory-brave
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《模式识别》相关的知识,希望对你有一定的参考价值。
---恢复内容开始---
统计决策方法
看一个简单的例子。
假设我手里握着一枚硬币,让你猜是多少钱的硬币,这可以看做一个分类决策的问题:你需要从各种可能的硬币中做出一个决策,如果我告诉你这枚硬币只可能是一角或者五角,这就是一个两类的分类问题。
在没有任何关于这枚硬币任何信息的情况下,有人可能猜这是一枚一脚的硬币,因为他在最近一段时间以来接触到的一角硬币比五角多。
这个决策过程是有理论依据的:他实际是通过对所接触过的硬币的概率做出粗略分析,认为出现一角硬币的概率比五角硬币的概率大,然后选择了概率较大的决策。(这个思路其实很好理解,就像现在我手里握着一枚硬币,然后让你猜这枚硬币,你几乎不会认为这枚硬币是一分的,因为现在一分的硬币太少了,甚至一角的也很少)
如果把硬币记为x,把一角和五角这两类分别记为$w_1$和$w_2$,用$P(w_1)和P(w_2)$分别表示两类的概率,这一决策规则可以表示为
$$决策一:如果P(w_1)>P(w_2),则x \in w_1;反之则x \in w_2$$
接下来我们看一下使用该决策带来的犯错误概率。
如果判断$x \in w_1$,那么犯错误的概率就是$P(error)=1-P(w_1)=P(w_2)$,这里犯错误的概率可以理解为实际上$x \in w_2$的可能性,如果$x \in w_2$的可能性越大,那么犯错误的概率也会越大。
我们可以看到决策一的准则实际上是最小错误率准则,而且对每一枚硬币都按照错误概率最小的原则进行决策,那么这种决策在所有可能出现的独立样本上错误率最小。
上面说的概率是没有对样本进行任何的观察与测量,完全取决于个人的看法,是先验概率。
下面假如不允许你看硬币,但是允许用天平来称量硬币的重量,让你根据重量来做决策。
把硬币的重量记为$x$,现在我们应该去估计在已知硬币重量为$x$的情况下,硬币属于各类的概率,即$P(w_1|x)和P(w_2|x)$,称为后验概率。通过比较它们的大小来做出决策:
$$决策二:如果P(w_1|x)>P(w_2|x),则x \in w_1;反之则x\in w_2$$
在这种决策下,如果$x \in w_1$,那么犯错误的概率就是$P(error)=1-P(w_1|x)=P(w_2|x)$,所以决策二仍然是最小错误率的决策。
如何求$P(w_1|x)$呢,我们可以通过贝叶斯公式来进行求解:
$$P(w_1|x) = \fracp(w1,x)p(x)=\fracp(x|w_1)*P(w_1)p(x)$$
其中$P(w_1)$称为先验概率,$p(x|w_1)$称为类条件密度,即给定类别w1下,x的概率密度。
这就是贝叶斯决策:在类条件概率密度和先验概率已知的情况下,通过贝叶斯公式比较样本属于两类的后验概率,将类别决策为后验概率较大的一类。
对两类问题,在样本x上错误的概率为
$$P(e|x) = \left\\beginmatrix
P(w_2|x)\ \ \ \ 做出的决策为x\inw_1\\
P(w_1|x)\ \ \ \ 做出的决策为x\inw_2
\endmatrix\right.$$
错误率定义为所有服从同样分布的独立样本上错误概率的期望,即
$$P(e) = \int P(e|x)p(x)dx$$
这里,用$\int $表示在特征x的全部取值空间做积分。
---恢复内容结束---
以上是关于《模式识别》的主要内容,如果未能解决你的问题,请参考以下文章
模式识别(Pattern Recognition)学习笔记--何为模式识别