PRML - Chapter 1: Introduction

Posted Real&Love

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PRML - Chapter 1: Introduction相关的知识,希望对你有一定的参考价值。

PRML - Chapter 1: Introduction

对于第一章来说,都是一些简单的介绍,是一些机器学习的基础知识,如:训练集、测试集、泛化、有监督学习、无监督学习、特征抽取等基本概念。

基本知识点

  • 训练集 ( training set ) : 用来通过训练来调节模型的参数。
    • 输入变量 x \\text{x} x N N N 次观测组成,记作 X ≡ { x 1 , ⋯   , x N } \\text{X}\\equiv\\{\\text{x}_1,\\cdots,\\text{x}_N\\} X{x1,,xN}
    • 目标变量 t t t N N N 次观测组成,记作 t ≡ { t 1 , ⋯   , t N } \\mathbf{t}\\equiv\\{t_1,\\cdots,t_N\\} t{t1,,tN}
  • 学习的结果 : 表示为一个函数 y ( x ) y ( x ) y(x),它以新的 x x x 为输入,产生的 y y y 为输出,结果与 t t t 的形式相同。
    • y y y 的具体形式 ( 参数 ) 是在训练 ( training ) 阶段被确定的,也被称为学习 ( learning ) 阶段。
    • 当训练阶段完成后,可以使用新的数据集去检验训练的结果,这种数据集称为测试集 ( test set )。
    • 泛化 ( generalization ) : 正确分类与训练集不同的新样本的能力。
  • 原始输入向量需要被预处理 ( pre-processed ),变换到新的变量空间,也称为特征抽取 ( feature extraction ),使问题变得更加容易解决。
  • 有监督学习 ( supervised learning )
    • 离散输出学习称为分类 ( classification ) 问题
    • 连续输出学习称为回归 ( regression ) 问题
  • 无监督学习 ( unsupervised learning )
    • 离散输出学习称为聚类 ( clustering ) 问题
    • 连续输出学习称为密度估计 ( density estimation )
      • 高维空间投影到二维或者三维空间,为了数据可视化 ( visualization ) 或者降维
  • 反馈学习 ( 强化学习 ) ( reinforcement learning ) : 本书不关注

基本知识点

  • 训练集 ( training set ) : 用来通过训练来调节模型的参数。
    • 输入变量 x \\text{x} x N N N 次观测组成,记作 X ≡ { x 1 , ⋯   , x N } \\text{X}\\equiv\\{\\text{x}_1,\\cdots,\\text{x}_N\\} X{x1,,xN}
    • 目标变量 t t t N N N 次观测组成,记作 t ≡ { t 1 , ⋯   , t N } \\mathbf{t}\\equiv\\{t_1,\\cdots,t_N\\} t{t1,,tN}
  • 学习的结果 : 表示为一个函数 y ( x ) y ( x ) y(x),它以新的 x x x 为输入,产生的 y y y 为输出,结果与 t t t 的形式相同。
    • y y y 的具体形式 ( 参数 ) 是在训练 ( training ) 阶段被确定的,也被称为学习 ( learning ) 阶段。
    • 当训练阶段完成后,可以使用新的数据集去检验训练的结果,这种数据集称为测试集 ( test set )。
    • 泛化 ( generalization ) : 正确分类与训练集不同的新样本的能力。
  • 原始输入向量需要被预处理 ( pre-processed ),变换到新的变量空间,也称为特征抽取 ( feature extraction ),使问题变得更加容易解决。
  • 有监督学习 ( supervised learning )
    • 离散输出学习称为分类 ( classification ) 问题
    • 连续输出学习称为回归 ( regression ) 问题
  • 无监督学习 ( unsupervised learning )
    • 离散输出学习称为聚类 ( clustering ) 问题
    • 连续输出学习称为密度估计 ( density estimation )
      • 高维空间投影到二维或者三维空间,为了数据可视化 ( visualization ) 或者降维
  • 反馈学习 ( 强化学习 ) ( reinforcement learning ) : 本书不关注

1.1. 例子 : 多项式曲线拟合

理论基础

  • 概率论提供了数学框架,用来描述不确定性
  • 决策论提供了合适的标准,用来进行最优的预测。

前提条件

  • 训练集 : 输入数据 : 由 x x x N N N 次观察组成 x ≡ ( x 1 , ⋯   , x N ) T \\mathbf{x}\\equiv ( x_1,\\cdots,x_N )^T x(x1,,xN)T
  • 训练集 : 目标数据 : 由 t t t N N N 次观察组成 t ≡ ( t 1 , ⋯   , t N ) T \\mathbf{t}\\equiv ( t_1,\\cdots,t_N )^T t(t1,,tN)T

多项式函数是线性模型,应用于 线性回归 ( Ch 03 ) 和 线性分类 ( Ch 04 )

y ( x , w ) = w 0 + w 1 x + w 2 x 2 + ⋯ + w M x M = ∑ j = 0 M w j x j y ( x,\\text{w} ) = w_0 + w_1 x + w_2 x^2 + \\cdots + w_M x^M = \\sum_{j=0}^M w_j x^j y(x,w)=w0+w1x+w2x2++wMxM=j=0Mwjxj

最小化误差函数 ( error function ) 可以调整多项式函数的参数

  • 平方误差函数 ( square error function ) : 最常用

E ( w ) = 1 2 ∑ n = 1 N [ y ( x n , w ) − t n ] 2 E ( \\text{w} ) =\\frac12\\sum_{n=1}^N [y ( x_n,\\text{w} ) - t_n]^2 E(w)=21n=1N[y(xn,w)tn]2

  • 根均方 ( root-mean-square, RMS ) 误差函数 : 更方便

E R M S = 2 E ( w ∗ ) / N E_{RMS}=\\sqrt{2E ( \\text{w}^* ) /N} ERMS=2E(w)/N

多项式的阶数 M M M 的选择,属于 模型对比 ( model comparison ) 问题 或者 模型选择 ( model selection ) 问题。

拟合问题 : 模型容量 与 实际问题 不匹配

  • 欠拟合 ( Under-fitting ) : 模型过于简单,模型容量低,不能充分描述问题
  • 过拟合 ( Over-fitting ) : 模型过于复杂,模型容量高,可能描述数据噪声

正则化 ( regularization ) : 解决过拟合问题,即给误差函数增加惩罚项

  • 正则项的 λ \\lambda λ 系数控制过拟合的影响
  • 统计学 : 叫做收缩 ( shrinkage ) 方法
  • 二次正则项 : 称为岭回归 ( ridge regression )
  • 神经网络 : 称为权值衰减 ( weight decay )

确定模型容量 : 验证集 ( validation set ),也被称为拿出集 ( hold-out set ),缺点是不能充分利用数据

数据集规模 : 训练数据的数量应该是模型可调节参数的数量的 5~10 倍。

最大似然 ( maximum likelihood, ML )

  • 最小二乘法 是 最大似然法 的特例
  • 过拟合问题 是 ML 的一种通用属性
  • 使用 Bayesian 方法解决过拟合问题,等价于正则化

1.2. 概率论

( 建议跟着公式和例子推导 )

理解 离散随机变量 与 连续随机变量 之间的关系

离散随机变量

  • 联合概率 : X X X 取值 x i x_i xi Y Y Y 取值 y j y_j yj,的联合概率是

p ( X = x i , Y = y j ) = n i j N p ( X=x_i,Y=y_j ) =\\frac{n_{ij}}{N} p(X=xi,Y=yj)=Nnij

  • 边缘概率 : X X X 取值 x i x_i xi( 与 Y Y Y 取值无关 ) 的边缘概率是

p ( X = x i ) = c i N p ( X=x_i ) = \\frac{c_i}N p(X=xi)=Nci

  • 加和规则推导

p ( X = x i ) = ∑ j

以上是关于PRML - Chapter 1: Introduction的主要内容,如果未能解决你的问题,请参考以下文章

简单的PRML阅读笔记

markdown Diretivas - Introdução

markdown Serviços - Introdução

PRML 1.1 多项式曲线拟合

PRML 1.3 模型选择 1.4 维度灾难

PRML 1.5 决策论