统计学习方法--机器学习概论

Posted 2020-12-27 qlearner

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了统计学习方法--机器学习概论相关的知识，希望对你有一定的参考价值。

（本章主要参考李航老师的《统计学习方法》，其次是周志华老师的《机器学习》。通过自己的阅读，提炼出书中的知识点以及些许自己部分的理解(可能不到位)，巩固所学知识。）

统计学习方法概论

本章简要叙述统计学习方法的一些基本概念.首先许如统计学习的定义、研究对象与方法；然后叙述监督学习；接着提出统计学习方法的三要素；介绍模型选择；介绍生成模型与判别模型；最后介绍监督学习方法的应用：分类问题、标注问题与回归问题。

以下是目录结构：

一. 统计学习

二. 监督学习

三.统计学习三要素

四. 模型评估与模型选择

五. 正则化与交叉验证

六. 泛化能力

七. 生成模型与判别模型

八. 分类问题

九. 标注问题

十. 回归问题

以下是正文：

一. 统计学习

1.统计学习的特点:

‘学习’的定义（赫尔伯特·西蒙）：如果一个系统能通过执行某个过程改进他的性能，这就是学习。

(1):以计算机网络为平台 (2):以数据为研究对象 (3):对数据进行预测和分析 (4):构建模型并应用模型进行预测 (5):以概率论、统计学、信息论、计算理论、最优化理论、计算机科学等多个领域的交叉学科

2.统计学习的对象：

统计学习的对象是数据。从数据出发，提取数据特征(如预测房子的价格，提取房子的占地面积，地理位置、交通情况等特征)，抽象数据模型(将占地面积、地理位置、交通情况以向量的形式表达)，发现数据的知识，对数据做预测和分析(构建模型如多元函数拟合)。

3.统计学习的目的：

统计学习的目的是对数据作预测和分析，特别是对位置新数据进行预测与分析。

4.统计学习的方法：

统计学习的方法是基于数据结构统计模型从而对数据进行预测与分析.统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。

实现统计学方法的步骤如下:

1.得到一个有限的训练数据集合

2.确定包含所有可能的模型的假设空间，即学习模型的集合

3.确定模型选择的准则

4.实现求解最优模型的算法

5.通过学习方法选择最优模型

6.利用最有模型预测数据

5.统计学习的研究：

统计学习的研究包括统计学方法、统计学理论及统计学应用。

6.统计学习的重要性：

近二十年来，统计学习无论是在理论还是应用方面取得了巨大的发展，统计学习已经被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索和生物信息等许多领域中。

统计学的重要性体现在以下三个方面：

1.处理海量数据的有效方法

2.计算机智能化的有效手段

3.计算机科学发展的一个重要组成部分

二. 监督学习

监督学习的任务是学习一个模型，使得模型能够对任意给定的输入，对其相应的输出做出一个好的预测。

下面介绍几个基本术语：

1.输入空间(input space):输入的所有可能取值

2.输出空间(ouput space):输出的所有可能取值

3.实例(instance):具体的输入，通常由特征向量表示(x⁽¹⁾,x⁽²⁾,……，x⁽ⁿ⁾)

4.特征空间(feature space):所有特征向量存在的空间

5.样本(sample):输入与输出对

6.假设空间(hypothesis space):模型由输入空间到输出空间的映射的集合

由此，根据输入输出变量的不同类型，给了监督学习不同的名称:

1.输入与输出变量均为连续变量的预测问题称为回归问题（如支持向量回归SVR输出 wx+b，即某个样本点到分类面的距离，是连续值，所以是回归模型）

2.输出变量为有限个离散变量的预测成为分类问题（如二分类问题的输出为-1：反类，+1：正类；如支持向量机把这个距离用 sign(·) 函数，距离为正(在超平面一侧)的样本点是一类，为负的是另一类；k邻近法；朴素贝叶斯；决策树、感知机、贝叶斯网络、提升方法、神经网络等）

3.输入输出变量均为变量序列的预测问题成为标记问题（如隐马尔可夫模型、条件随机场。应用：信息抽取，自然语言处理如词性标注、抽取基本名词短语）

三.统计学习三要素

统计学习方法 = 模型 + 策略 + 算法

1.模型

模型就是所要学习的条件概率分布或者决策函数。如SVR输出wx+b、二分类问题的分类器P=(Y|X)或Y=f（X）对于输出实例进行分类。

2.策略

由于输出的预测值f(X)与真实值有差异，用损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。

损失函数为f（X）和Y的非负实值函数，记为L(Y,f(X)),常用的损失函数如下：

(1): 0-1损失函数： L(Y,f(X)) = 1 (Y!=f(X)) , 0 (Y = f(X)).

(3): 平方损失函数： L(Y,f(X)) = （Y - f(X)）²

(4): 绝对损失函数： L(Y,f(X)) = |Y - f(X) |

(5): 对数损失函数： L(Y,f(X)) = -log P(Y|X)

损失函数值越小模型就越好.故考察损失函数的期望:E _p[ L（Y，f（X））] = ∫_X_*Y L * P(x,y) dxdy 其中P（x，y）是(X,Y)的联合分布概率。学习的目标就是选择期望风险最小的模型。

但是，实际上如果知道联合分布P(X,Y)，便可直接求出P(Y|X)，也就不需要学习了。故考察平均损失(经验风险)：R（f）= 1/N * ∑_i=1-N_{L（yi,f(xi))}

经验最小化认为：经验最小的模型是最优模型，即求解最优化问题 min 1/N * ∑i=1-N L（ yi , f(xi) )

结构最小化认为：结构风险最小化求解最优问题 min 1/N * ∑i=1-N L（ yi , f(xi) ) +λ * J(f) ，

3.算法

算法是指学习模型的具体算法，一般归结于最优化问题.

若最优化问题有显示解析解，则最优化问题较为简单

若最优化问题没有显示解，则需要用数值计算的方法求解。如何保证找到全局最优解(可能会陷入局部最优解即极值)，并使得求解过程最高效成为一个重要的问题。