统计学习方法笔记——统计学习方法概论
Posted xiaopihaierletian
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计学习方法笔记——统计学习方法概论相关的知识,希望对你有一定的参考价值。
1.统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科。统计学习是一门概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。
统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。
统计学习的目的就是考虑学习什么样的模型和如何学习模型。
统计学习的方法可以概括为:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,成为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最有的预测;最有模型的选取由算法实现。
统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。实现统计学习的步骤如下:
(1) 得到一个有限的训练数据集合;
(2) 确定包含所有可能的模型的假设空间,即学习模型的集合;
(3) 确定模型选择的准则,即学习的策略;
(4) 实现求解最优模型的算法,即学习的算法;
(5) 通过学习方法选择最优模型;
(6) 利用学习的最优模型对新数据进行预测或分析。
2.监督学习
监督学习从训练数据中学习模型,对测试数据进行预测,训练集通常表示为
人们根据输入、输出变量的不同类型,对预测任务给予不同的名称:输入变量和输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数,或分布密度函数。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。
监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示,随具体学习方法而定。
监督学习分为学习和预测两个过程,由学习系统与预测系统组成,如下图:
学习过程中,学习系统利用给定的训练数据集,通过学习得到一个模型,表示为条件概率分布P(Y|X)或决策函数Y=f(X)。预测过程中,预测系统对于给定的测试样本集中的输入