Introduction

Posted luyunan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Introduction相关的知识,希望对你有一定的参考价值。

  1. 模式识别是利用算法自动挖掘数据中的 Knowledge,进而根据这些知识 采取行动
  2. 无监督学习问题的目标是发现数据中的相似样本组群,或确定输入空间中数据的分布(密度估计),或从高维投影数据。
  3. 强化学习就是要在给定情境下采取合适的措施最大化奖励。强化学习的一般特性就是权衡 explorationexploitation 之间的关系,偏向其中任何一方都会使得结果很差。exploration 就是模型挖掘新的操作,并观察它们的有效性; exploitation 就是模型在已知操作中找到可以使得奖励最大化的操作。

1.1 Example: Polynomial Curve Fitting

问题框架

name function
hypothesis (y(x, omega ) = omega _0 + omega _1 x + omega _2 x^2 + ... + omega _M x^M = sum_{j=0}^{M} omega _j x^j)
loss function / criteria $E(omega ) = frac{1}{2} sum_{i=0}^{N} { y(x_i, omega ) - t_i } ^2 = frac{1}{2} Vert y(x, omega ) - t Vert ^2 _2 $
criteria with regularizer ( ilde{E}(omega ) = frac{1}{2} sum_{i=0}^{N} { y(x_i, omega ) - t_i } ^2 + frac{lambda}{2} Vert omega Vert ^2 = frac{1}{2} Vert y(x, omega ) - t Vert ^2 _2 + frac{lambda}{2} Vert omega Vert ^2 _2)

均方根差(root mean square error)是一种测量数值之间的差异的度量。其计算公式为 (E_{RMS} = sqrt{2E(omega ^*) / N})。除以 N 是为了避免测试集和训练集的数据规模的差异,开根是为了使损失函数值与真实标记值在同一量级上。

一些初步观点

  1. Probability theory 提供了一种精确量化表达这种不确定性的框架。
  2. decision theory使我们能够利用这种概率表示来根据适当的标准进行最佳预测。
  3. 曲线越复杂,即项数 M 越大,则模型对噪声就拟合得越好。
  4. 数据规模越大,过拟合问题越小。
  5. 为避免过拟合,训练集样本数量最好不低于模型参数个数的某倍数。
  6. 根据实际问题的复杂性来确定模型的复杂性,而不是根据数据集规模来确定。
  7. 用于学习模型参数的最小二乘法代表了最大似然的一种特殊情况,并且过拟合问题可以理解为最大似然的一般性质。
  8. 通过采用贝叶斯方法,可以避免过度拟合的问题。从贝叶斯的角度来看,在使用参数数量大大超过数据点数量的模型时,没有任何困难。实际上,在贝叶斯模型中,有效参数数量会自动适应数据集的大小。
  9. 正则化项经常不包括常数项((omega _0)),因为将其包括在内会导致结果依赖于目标变量值,或者也可能包含但具有自己独立的正则化项。
  10. 加正则化项的技术在统计学里面叫 shrinkage,在神经网络里面叫 weight decay
  11. 如果我们通过最小化损失函数来解决实际问题,则必须找到一种方法来确定合适的模型复杂度。有个简单粗暴的办法就是通过验证集来解决。

1.2 Probability Theory

模式识别的核心概念是 uncertainty ,它由度量过程中的噪声与数据集的不完备性所产生。

核心公式

  1. sum rule
    [ p(X) = sum _Y p(X,Y) ]

  2. product rule
    [ p(X,Y) = p(Y|X)p(X) ]

  3. Bayes‘ theorem
    [ p(Y vert X) = frac{p(X vert Y)p(Y)}{p(X)} = frac{p(X vert Y)p(Y)}{sum_Y p(X vert Y) p(Y)} ]

先验概率(prior probability):在被问及所选盒子种类之前,没有被告知最后选出的水果种类。我们称 p(Box) 是先验概率,因为这是我们在观测到抽出水果种类之前就能获得的概率信息。
后验概率(posterior probability):在被问及所选盒子种类之前,已经被告知了最后选出水果的种类。我们称 P(Box|Fruit) 是后验概率,因为这是我们观测到抽出水果种类之后才获得的概率信息。

以上是关于Introduction的主要内容,如果未能解决你的问题,请参考以下文章