PRML - Chapter 1: Introduction
Posted Real&Love
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PRML - Chapter 1: Introduction相关的知识,希望对你有一定的参考价值。
PRML - Chapter 1: Introduction
对于第一章来说,都是一些简单的介绍,是一些机器学习的基础知识,如:训练集、测试集、泛化、有监督学习、无监督学习、特征抽取等基本概念。
基本知识点
- 训练集 ( training set ) : 用来通过训练来调节模型的参数。
- 输入变量 x \\text{x} x 的 N N N 次观测组成,记作 X ≡ { x 1 , ⋯ , x N } \\text{X}\\equiv\\{\\text{x}_1,\\cdots,\\text{x}_N\\} X≡{x1,⋯,xN}
- 目标变量 t t t 的 N N N 次观测组成,记作 t ≡ { t 1 , ⋯ , t N } \\mathbf{t}\\equiv\\{t_1,\\cdots,t_N\\} t≡{t1,⋯,tN}
- 学习的结果 : 表示为一个函数
y
(
x
)
y ( x )
y(x),它以新的
x
x
x 为输入,产生的
y
y
y 为输出,结果与
t
t
t 的形式相同。
- y y y 的具体形式 ( 参数 ) 是在训练 ( training ) 阶段被确定的,也被称为学习 ( learning ) 阶段。
- 当训练阶段完成后,可以使用新的数据集去检验训练的结果,这种数据集称为测试集 ( test set )。
- 泛化 ( generalization ) : 正确分类与训练集不同的新样本的能力。
- 原始输入向量需要被预处理 ( pre-processed ),变换到新的变量空间,也称为特征抽取 ( feature extraction ),使问题变得更加容易解决。
- 有监督学习 ( supervised learning )
- 离散输出学习称为分类 ( classification ) 问题
- 连续输出学习称为回归 ( regression ) 问题
- 无监督学习 ( unsupervised learning )
- 离散输出学习称为聚类 ( clustering ) 问题
- 连续输出学习称为密度估计 ( density estimation )
- 高维空间投影到二维或者三维空间,为了数据可视化 ( visualization ) 或者降维
- 反馈学习 ( 强化学习 ) ( reinforcement learning ) : 本书不关注
基本知识点
- 训练集 ( training set ) : 用来通过训练来调节模型的参数。
- 输入变量 x \\text{x} x 的 N N N 次观测组成,记作 X ≡ { x 1 , ⋯ , x N } \\text{X}\\equiv\\{\\text{x}_1,\\cdots,\\text{x}_N\\} X≡{x1,⋯,xN}
- 目标变量 t t t 的 N N N 次观测组成,记作 t ≡ { t 1 , ⋯ , t N } \\mathbf{t}\\equiv\\{t_1,\\cdots,t_N\\} t≡{t1,⋯,tN}
- 学习的结果 : 表示为一个函数
y
(
x
)
y ( x )
y(x),它以新的
x
x
x 为输入,产生的
y
y
y 为输出,结果与
t
t
t 的形式相同。
- y y y 的具体形式 ( 参数 ) 是在训练 ( training ) 阶段被确定的,也被称为学习 ( learning ) 阶段。
- 当训练阶段完成后,可以使用新的数据集去检验训练的结果,这种数据集称为测试集 ( test set )。
- 泛化 ( generalization ) : 正确分类与训练集不同的新样本的能力。
- 原始输入向量需要被预处理 ( pre-processed ),变换到新的变量空间,也称为特征抽取 ( feature extraction ),使问题变得更加容易解决。
- 有监督学习 ( supervised learning )
- 离散输出学习称为分类 ( classification ) 问题
- 连续输出学习称为回归 ( regression ) 问题
- 无监督学习 ( unsupervised learning )
- 离散输出学习称为聚类 ( clustering ) 问题
- 连续输出学习称为密度估计 ( density estimation )
- 高维空间投影到二维或者三维空间,为了数据可视化 ( visualization ) 或者降维
- 反馈学习 ( 强化学习 ) ( reinforcement learning ) : 本书不关注
1.1. 例子 : 多项式曲线拟合
理论基础
- 概率论提供了数学框架,用来描述不确定性
- 决策论提供了合适的标准,用来进行最优的预测。
前提条件
- 训练集 : 输入数据 : 由 x x x 的 N N N 次观察组成 x ≡ ( x 1 , ⋯ , x N ) T \\mathbf{x}\\equiv ( x_1,\\cdots,x_N )^T x≡(x1,⋯,xN)T
- 训练集 : 目标数据 : 由 t t t 的 N N N 次观察组成 t ≡ ( t 1 , ⋯ , t N ) T \\mathbf{t}\\equiv ( t_1,\\cdots,t_N )^T t≡(t1,⋯,tN)T
多项式函数是线性模型,应用于 线性回归 ( Ch 03 ) 和 线性分类 ( Ch 04 )
y ( x , w ) = w 0 + w 1 x + w 2 x 2 + ⋯ + w M x M = ∑ j = 0 M w j x j y ( x,\\text{w} ) = w_0 + w_1 x + w_2 x^2 + \\cdots + w_M x^M = \\sum_{j=0}^M w_j x^j y(x,w)=w0+w1x+w2x2+⋯+wMxM=j=0∑Mwjxj
最小化误差函数 ( error function ) 可以调整多项式函数的参数
- 平方误差函数 ( square error function ) : 最常用
E ( w ) = 1 2 ∑ n = 1 N [ y ( x n , w ) − t n ] 2 E ( \\text{w} ) =\\frac12\\sum_{n=1}^N [y ( x_n,\\text{w} ) - t_n]^2 E(w)=21n=1∑N[y(xn,w)−tn]2
- 根均方 ( root-mean-square, RMS ) 误差函数 : 更方便
E R M S = 2 E ( w ∗ ) / N E_{RMS}=\\sqrt{2E ( \\text{w}^* ) /N} ERMS=2E(w∗)/N
多项式的阶数 M M M 的选择,属于 模型对比 ( model comparison ) 问题 或者 模型选择 ( model selection ) 问题。
拟合问题 : 模型容量 与 实际问题 不匹配
- 欠拟合 ( Under-fitting ) : 模型过于简单,模型容量低,不能充分描述问题
- 过拟合 ( Over-fitting ) : 模型过于复杂,模型容量高,可能描述数据噪声
正则化 ( regularization ) : 解决过拟合问题,即给误差函数增加惩罚项
- 正则项的 λ \\lambda λ 系数控制过拟合的影响
- 统计学 : 叫做收缩 ( shrinkage ) 方法
- 二次正则项 : 称为岭回归 ( ridge regression )
- 神经网络 : 称为权值衰减 ( weight decay )
确定模型容量 : 验证集 ( validation set ),也被称为拿出集 ( hold-out set ),缺点是不能充分利用数据
数据集规模 : 训练数据的数量应该是模型可调节参数的数量的 5~10
倍。
最大似然 ( maximum likelihood, ML )
- 最小二乘法 是 最大似然法 的特例
- 过拟合问题 是 ML 的一种通用属性
- 使用 Bayesian 方法解决过拟合问题,等价于正则化
1.2. 概率论
( 建议跟着公式和例子推导 )
理解 离散随机变量 与 连续随机变量 之间的关系
离散随机变量
- 联合概率 : X X X 取值 x i x_i xi, Y Y Y 取值 y j y_j yj,的联合概率是
p ( X = x i , Y = y j ) = n i j N p ( X=x_i,Y=y_j ) =\\frac{n_{ij}}{N} p(X=xi,Y=yj)=Nnij
- 边缘概率 : X X X 取值 x i x_i xi( 与 Y Y Y 取值无关 ) 的边缘概率是
p ( X = x i ) = c i N p ( X=x_i ) = \\frac{c_i}N p(X=xi)=Nci
- 加和规则推导
p
(
X
=
x
i
)
=
∑
j
以上是关于PRML - Chapter 1: Introduction的主要内容,如果未能解决你的问题,请参考以下文章 markdown Diretivas - Introdução