1.统计学习方法概论

Posted xutianlun

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了1.统计学习方法概论相关的知识,希望对你有一定的参考价值。

 1.统计学习

统计学习的对象:
(1)data : 计算机及互联网上的各种数字、文字、图像、视频、音频数据以及它们的组合。
(2)数据的基本假设是同类数据具有一定的统计规律性。
统计学习的目的:
用于对数据(特别是未知数据) 进行预测和分析。
统计学习的方法:
(1)分类:

监督学习
无监督学习
半监督学习
强化学习

 2.监督学习
Instance, feature vector, feature space
输入实例x的特征向量:技术图片

x(i)与xi 不同,后者表示多个输入变量中的第i个技术图片

训练集:技术图片

输入变量和输出变量:
分类问题、 回归问题、 标注问题
联合概率分布:
假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)为分布函数或分布密度函数,对于学习系统来说,联合概率分布是未知的,训练数据和测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。
假设空间:
监督学习目的是学习一个由输入到输出的映射,称为模型
模式的集合就是假设空间(hypothesis space)
概率模型:条件概率分布P(Y|X), 决策函数: Y=f(X)
问题的形式化:

 技术图片

 

 3.统计学习三要素
方法 = 模型+策略+算法

模型:
决策函数的集合:技术图片

参数空间:技术图片

条件概率的集合:技术图片

参数空间:技术图片

 

策略:
损失函数: 一次预测的好坏
风险函数: 平均意义下模型预测的好坏
0-1损失函数 0-1 loss function

技术图片

平方损失函数 quadratic loss function:技术图片

绝对损失函数 absolute loss function:技术图片

 

对数似然损失函数 loglikelihood loss function:技术图片

损失函数的期望:技术图片

风险函数 risk function 期望损失 expected loss
由P(x,y)可以直接求出P(x|y),但不知道,技术图片

经验风险 empirical risk , 经验损失 empirical loss:技术图片

策略: 经验风险最小化与结构风险最小化
经验风险最小化最优模型:技术图片

当样本容量很小时, 经验风险最小化学习的效果未必很好, 会产生“过拟合over-fitting”
结构风险最小化 structure risk minimization, 为防止过拟合提出的策略, 等价于正则化(regularization) , 加入正则化项regularizer, 或罚项 penalty term:

技术图片

求最优模型就是求解最优化问题:技术图片

算法:
如果最优化问题有显式的解析式, 算法比较简单但通常解析式不存在, 就需要数值计算的方法


 4.模型评估与模型选择
训练误差, 训练数据集的平均损失:技术图片

测试误差, 测试数据集的平均损失:技术图片

损失函数是0-1 损失时:技术图片

测试数据集的准确率:技术图片

 

过拟合与模型选择

假设给定训练数据集技术图片

其中, ix?R是输入x的观测值, iy?R是相应的输出y的观测值, i=1,2,…,N。 多项式函数拟合的任务是假设给定数据由M次多项式函数生成, 选择最有可能产生这些数据的M次多项式函数, 即在M次多项式函数中选择一个对已知数据以及未知数据都有很好预测能力的函数。设M次多项式为:技术图片

式中x是单变量输入, w0,w1,wM,…是M+1个参数。技术图片

经验风险最小:

技术图片

 5.正则化与交叉验证
正则化

模型选择的典型方法是正则化(regularization) 。 正则化是结构风险最小化策略的实现, 是在经验风险上加一个正则化项(regularizer) 或罚项(penalty term)。
正则化一般形式:技术图片

其中, 第1项是经验风险, 第2项是正则化项, ≥0为调整两者之间关系的系数。

回归问题中,损失函数是平方损失, 正则化项可以是参数向量的L2范数:技术图片

这里, ||w||表示参数向量w的L2范数。

正则化项也可以是参数向量的L1范数:技术图片

这里, ||w||1表示参数向量w的L1范数。

第1项的经验风险较小的模型可能较复杂(有多个非零参数), 这时第2项的模型复杂度会较大。 正则化的作用是选择经验风险与模型复杂度同时较小的模型。

交叉验证
训练集 training set: 用于训练模型
验证集 validation set: 用于模型选择
测试集 test set: 用于最终对学习方法的评估
简单交叉验证:首先随机地将已给数据分为两部分,一部分作为训练集,另一部分作为测试集(例如, 70%的数据为训练集, 30%的数据为测试集); 然后用训练集在各种条件下(例如, 不同的参数个数) 训练模型, 从而得到不同的模型; 在测试集上评价各个模型的测试误差, 选出测试误差最小的模型。
S折交叉验证:应用最多的是S折交叉验证(S-fold cross validation),方法如下: 首先随机地将已给数据切分为S个互不相交的大小相同的子集; 然后利用S-1个子集的数据训练模型, 利用余下的子集测试模型; 将这一过程对可能的S种选择重复进行; 最后选出S次评测中平均测试误差最小的模型。
留一交叉验证:S折交叉验证的特殊情形是S=N,称为留一交叉验证(leave-one-out  cross validation), 往往在数据缺乏的情况下使用。 这里 N是给定数据集的容量。

 6.泛化能力
学习方法的泛化能力(generalization ability) 是指由该方法学习到的模型对未知数据的预测能力, 是学习方法本质上重要的性质。 现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。 但这种评价是依赖于测试数据集的。 因为测试数据集是有限的,很有可能由此得到的评价结果是不可靠的。 统计学习理论试图从理论上对学习方法的泛化能力进行分析。

泛化误差

如果学到的模型是 ,那么用这个模型对未知数据预测的误差即为泛化误差(generalization error):技术图片

泛化误差反映了学习方法的泛化能力, 如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差, 那么这种方法就更有效。

泛化误差上界

学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的, 简称为泛化误差上界(generalization error bound) 。 具体来说, 就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。 泛化误差上界通常具有以下性质: 它是样本容量的函数,当样本容量增加时, 泛化上界趋于0; 它是假设空间容量(capacity) 的函数, 假设空间容量越大, 模型就越难学, 泛化误差上界就越大。
二分类问题:技术图片

期望风险和经验风险:技术图片

经验风险最小化函数:技术图片

泛化能力:技术图片

定理: 泛化误差上界, 二分类问题, 当假设空间是有限个函数的结合 , 对任意一个函数f, 至少以概率1-δ, 以下不等式成立:

技术图片

 7.生成模型与判别模型
决策函数:技术图片

条件概率分布:技术图片

生成方法Generative approach 对应生成模型: generative model,技术图片

典型的生成模型有:朴素贝叶斯法和隐马尔科夫模型。

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型, 即判别模型。 判别方法关心的是对给定的输入X, 应该预测什么样的输出Y。 典型的判别模型包括: k近邻法、 感知机、 决策树、 逻辑斯谛回归模型、 最大熵模型、 支持向量机、 提升方法和条件随机场等。
生成方法的特点: 生成方法可以还原出联合概率分布P(X,Y), 而判别方法则不能; 生成方法的学习收敛速度更快, 即当样本容量增加的时候, 学到的模型可以更快地收敛于真实模型; 当存在隐变量时, 仍可以用生成方法学习, 此时判别方法就不能用。判别方法的特点: 判别方法直接学习的是条件概率P(Y|X)或决策函数f(X), 直接面对预测, 往往学习的准确率更高; 由于直接学习P(Y|X)或f(X), 可以对数据进行各种程度上的抽象、 定义特征并使用特征, 因此可以简化学习问题。

 8.分类问题
分类是监督学习的一个核心问题。 在监督学习中, 当输出变量Y取有限个离散值时,预测问题便成为分类问题。 这时, 输入变量X可以是离散的, 也可以是连续的。 监督学习从数据中学习一个分类模型或分类决策函数, 称为分类器(classifier) 。 分类器对新的输入进行输出的预测(prediction) , 称为分类(classification)
分类问题包括学习和分类两个过程。 在学习过程中, 根据已知的训练数据集利用有效的学习方法学习一个分类器; 在分类过程中, 利用学习的分类器对新的输入实例进行分类。 分类问题可用图1.4描述。 图中(x1, y1),(x2, y2),…,(xN,yN)是训练数据集, 学习系统由训练数据学习一个分类器P(Y|X)或Y=f(X); 分类系统通过学到的分类器P(Y|X)或Y=f(X)对于新的输入实例xN+1进行分类, 即预测其输出的类标记yN+1。

技术图片

二分类评价指标:
TP——将正类预测为正类数;
FN——将正类预测为负类数;
FP——将负类预测为正类数;
TN——将负类预测为负类数。
精确率:技术图片

召回率:技术图片

F1值:技术图片

 9.标注问题
标注(tagging) 也是一个监督学习问题。 可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测(structure prediction) 问题的简单形式。 标注问题的输入是一个观测序列, 输出是一个标记序列或状态序列。 标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。 注意, 可能的标记个数是有限的, 但其组合所成的标记序列的个数是依序列长度呈指数级增长的。标注问题分为学习和标注两个过程(如图1.5所示) 。

技术图片

训练集:技术图片

观测序列:技术图片

输出标记序列:技术图片

模型: 条件概率分布技术图片

评价标注模型的指标与评价分类模型的指标一样, 常用的有标注准确率、 精确率和召回率。 其定义与分类模型相同。标注常用的统计学习方法有: 隐马尔可夫模型、 条件随机场。标注问题在信息抽取、 自然语言处理等领域被广泛应用, 是这些领域的基本问题。 例如, 自然语言处理中的词性标注(part of speech tagging) 就是一个典型的标注问题: 给定一个由单词组成的句子, 对这个句子中的每一个单词进行词性标注, 即对一个单词序列预测其对应的词性标记序列。

 10.回归问题
回归(regression) 是监督学习的另一个重要问题。 回归用于预测输入变量(自变量) 和输出变量(因变量) 之间的关系, 特别是当输入变量的值发生变化时, 输出变量的值随之发生的变化。 回归模型正是表示从输入变量到输出变量之间映射的函数。 回归问题的学习等价于函数拟合: 选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。回归问题分为学习和预测两个过程(如图1.6所示) 。

技术图片

这里, xi?Rn是输入, y?R是对应的输出, i=1,2,…,N。 学习系统基于训练数据构建一个模型, 即函数Y=f(X); 对新的输入xN+1, 预测系统根据学习的模型Y=f(X)确定相应的输出yN+1。
回归问题按照输入变量的个数, 分为一元回归和多元回归; 按照输入变量和输出变量之间关系的类型即模型的类型, 分为线性回归和非线性回归。回归学习最常用的损失函数是平方损失函数, 在此情况下, 回归问题可以由著名的最小二乘法(least squares) 求解。

以上是关于1.统计学习方法概论的主要内容,如果未能解决你的问题,请参考以下文章

统计学习方法概论

统计学习方法详解之第一章统计方法及监督学习概论

统计学习方法——机器学习概论

统计学习方法笔记——统计学习方法概论

第一章 统计学习及监督学习概论

统计学习方法之统计学习概论