PRML 1.5 决策论

Posted Real&Love

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PRML 1.5 决策论相关的知识,希望对你有一定的参考价值。

PRML 1.5 决策论


在这里插入图片描述

1.5.1 最小化错误分类率(Minimizing the misclassification rate)

对监督学习中的分类问题来讲,我们需要一个“规则”,把每一个 x x x分到合适的类别中去。这个“规则”会把输入空间分成不同的区域,这种区域叫做决策区域(decision region),而决策区域的边界叫做决策边界或者叫决策面。如上图所示,如果我们将属于 C 1 C_1 C1类的值分到了 C 2 C_2 C2类中,那么我们就犯了一个错误。这种发生的概率如下:
p ( m i s t a k e ) = p ( x ∈ R 1 , C 2 ) + p ( x ∈ R 2 , C 1 ) = ∫ R 1 p ( x , C 2 ) d x + ∫ R 2 p ( x , C 1 ) d x p(mistake) = p(x\\in R_1, C_2)+p(x\\in R_2, C_1)=\\int_{R_1}p(x,C_2)\\mathrm{d} x+\\int_{R_2}p(x,C_1)\\mathrm{d} x p(mistake)=p(xR1,C2)+p(xR2,C1)=R1p(x,C2)dx+R2p(x,C1)dx
我们当然希望将错误降到最小,即最小化 p ( m i s t a k e ) p(mistake) p(mistake)。根据乘积规则,

p ( x , C k ) = p ( C k ∣ x ) p ( x ) p(x, C_k)=p(C_k|x)p(x) p(x,Ck)=p(Ckx)p(x)
对最小化 p ( x , C k ) p(x, C_k) p(x,Ck),那么需要最小化 p ( C k ∣ x ) p(C_k|x) p(Ckx)

对于更⼀般的K类的情形,最大化正确率会稍微简单⼀些,即最大化下式
p ( correct ) = ∑ k = 1 K p ( x ∈ R k , C k ) = ∑ k = 1 K ∫ R k p ( x , C k ) dx p ( \\text{correct} ) =\\sum_{k=1}^Kp ( \\text{x}\\in\\mathcal{R}_k,\\mathcal{C}_k ) =\\sum_{k=1}^K\\int_{\\mathcal{R}_k} p ( \\text{x},\\mathcal{C}_k ) \\text{dx} p(correct)=k=1Kp(xRk,Ck)=k=1KRkp(x,Ck)dx

1.5.2 最小化期望损失(Minimizing the expected loss)

书中举了一个对癌症病人分类的例子,我这里简单阐述一下。分类问题我们都会出现两种错误。一,给没有患癌症的病人错误地诊断为癌症,二、给患了癌症的病人诊断为健康。我们给出如下混淆矩阵:

在这里插入图片描述

接着,我们引出损失矩阵(loss matrix),例如癌症这个例子,作者自己定义了一个损失矩阵,如下所示

在这里插入图片描述

如上图所示,我们将正常人诊断为癌症的错误损失记为1,而将癌症诊断为正常的错误损失记为1000。常见的损失函数如下所示

(1) 0-1损失函数
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(X))=\\left\\{ \\begin{array}{c}1, Y\\neq f(X) \\\\0, Y= f(X)\\end{array}\\right. L(Y,f(X))={1,Y=f(X)0,Y=f(X)
(2) 平方损失函数
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Yf(X))2

(3) 绝对损失函数
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X))=|Y-f(X)| L(Y,f(X))=Yf(X)

(4)对数损失函数
L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X))=-logP(Y|X) L(Y,P(YX))=logP(YX)

1.5.3 拒绝选项(The reject option)

在这里插入图片描述

例如,在我们假想的医疗例⼦中,⼀种合适的做法是,使⽤⾃动化的系统来对那些⼏乎没有疑问的X光片进行分类,然后把不容易分类的X光片留给医学专家。为了达到这个目的,我们引入一个阈值 θ \\theta θ拒绝后验概率 p ( C k ∣ x ) p(C_k|x) p(Ckx)的最大值小于等于 θ \\theta θ的那些样本。

1.5.4 推断和决策

接着下面讲了生成式模型(generative models)判别式模型(discriminative models)异常检测(novelty detection)

(a) 生成式模型(generative models)

常见的生成式模型有:

  • 朴素贝叶斯
  • 隐马尔科夫模型

比如对训练集来讲,我们通过训练得到此数据集的分布,在根据决策论来确定新数据的类别。生成式模型就是生成数据分布的模型。也就是说我们需要对输入和输出进行“建模”。

(b) 判别式模型(discriminative models)

常见的判别式模型如下:

  • kNN
  • 决策树
  • 逻辑回归
  • SVM

判别式模型我们需要确定 p ( C k ∣ x ) p(C_k|x) p(Ckx),接着用决策论来对新的输入 x x x进行分类。

在这里插入图片描述

1.5.5 回归问题中的损失函数

在回归问题中, 损失函数的一个通常的选择是平方损失,

L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Yf(X))2

那么期望损失函数可以写成
E [ L ] = ∬ { y ( x ) − t } 2 p ( x , t ) d x d t E[L]=\\iint\\left \\{y(x)-t \\right \\}^2p(x,t)dxdt E[L]={y(x)t}2p(x,t)dxdt
一般我们的目标是寻找一个 y ( x ) y(x) y(x)来最小化我们的 E [ L ] E[L] E[L]函数,所以我们用变分法,求解 y ( x ) y ( \\text{x} ) y(x) 的最优解
那么有
∂ E [ L ] ∂ y ( x ) = 2 ∫ { y ( x ) − t } p ( x , t ) d t = 0 \\frac{\\partial E[L]}{\\partial y(x)}=2\\int\\left \\{y(x)-t \\right\\}p(x,t)dt=0 y(x)E[L]=2{y(x)t}p(x,t)dt=0

利用加和规则和乘积规则,求解 y ( x ) y ( \\text{x} ) y(x) 的最优解
y ( x ) = ∫ t p ( x , t ) d t p ( x ) = ∫ t p ( t ∣ x ) d t = E t [ t ∣ x ] y(x)=\\frac{\\int tp(x,t)dt}{p(x)}=\\int tp(t|x)dt=E_t[t|x] y(x)=以上是关于PRML 1.5 决策论的主要内容,如果未能解决你的问题,请参考以下文章

机器学习贝叶斯决策论

贝叶斯分类器(1)贝叶斯决策论概述、贝叶斯和频率、概率和似然

贝叶斯分类器

贝叶斯分类器理论基础

贝叶斯分类器

机器学习算法--贝叶斯分类器