Part I/ Chapter 5 机器学习基础1

Posted 2021-03-26 rainton-z

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Part I/ Chapter 5 机器学习基础1相关的知识，希望对你有一定的参考价值。

一、学习算法

　　“学习”：对于某类任务T和性能度量P，一个计算机程序被认为可以从经验E中学习是指，通过经验E改进后，它在任务T上由性能度量P衡量的性能有所提升。

　　1、任务T：通常定义为机器学习系统应该如何处理样本。

　　　　→样本（Example）：我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征（feature）的集合。

　　　　常见的机器学习任务：

　　　　①分类：指定某些输入属于k类中的哪一类

　　　　②输入缺失分类

　　　　③回归：对给定输入预测数值

　　　　④转录：观测一些相对非结构化表示的数据，并转录信息为离散的文本形式

　　　　⑤机器翻译：输入是一种语言的符号序列，程序将其转化为另一种语言的符号序列

　　　　⑥结构化输出：输出是向量或者其他包含多个值的数据结构，并且构成输出的这些不同元素间具有重要关系

　　　　⑦异常检测：在一组事件或对象中筛选，并标记不正常或非典型的个体

　　　　⑧合成和采样：生成一些和训练数据相似的新样本

　　　　⑨缺失值填补

　　　　⑩去噪

　　　　?密度估计或概率质量函数估计

　　2、性能度量P：用于评估机器学习算法的能力，通常是特定于系统执行的任务T而言的。

　　3、经验E

　　　　根据学习过程中的不同经验，可以将机器学习算法大致分为无监督（unsupervised）算法和监督（supervised）算法。

　　　　无监督学习算法：训练含有很多特征的数据集，然后学习出这个数据集上有用的结构性质。

　　　　监督学习算法：训练含有很多特征的数据集，不过数据集中的样本都有一个标签（label）或者目标（target）。

　　　　设计矩阵：表示数据集的常用方法，每一行包含一个不同的样本，每一列对应不同的特征。

　　4、实例：线性回归

二、容量、过拟合和欠拟合

　　机器学习的主要挑战：算法必须站在先前未观测的新输入上表现良好，而不只是在训练集上表现良好。

　　1、泛化（generalization）：在先前未观测到的输入上表现良好的能力。

　　　泛化误差（测试误差）：新输入的误差期望

　　　训练误差

　　2、欠拟合（underfitting）：模型不能在训练集上获得足够低的误差。

　　　过拟合（overfitting）：训练误差和测试误差之间的差距太大。

　　3、模型的容量（capacity）：拟合各种函数的能力。

　　　表示容量（representational capacity）和有效容量（effective capacity）

　　4、“奥卡姆剃刀”原则：在同样能够解释已知观测现象的假设中，我们应该挑选最简单的那一个。

　　5、Vapnik-Chervonenkis维度：分类器能够分类的训练样本的最大数目。

　　6、贝叶斯误差：从预先知道的真实分布p(x,y)预测出现的误差。

　　7、no free lunch定理：在所有可能的数据生成分布上平均以后，每个分类算法在未事先观察的点上都有相同的错误率。换言之，在某种意义上，没有一个机器学习算法总是比其他的要好。

　　8、正则化和权重衰减。

三、超参数和验证集

　　超参数：控制算法行为，例如多项式回归中的多项式次数和控制权重衰减程度的数。

　　验证集：估计训练中或训练后的泛化误差，更新超参数。

　　交叉验证

　　→当数据集分成固定的训练集和固定的测试集后，若测试集的误差很小，这将是有问题的。一个小规模的测试集意味着平均测试误差估计的统计不确定性，使得很难判断算法A是否比B在任务上做得更好。

四、估计、偏差和方差

　　1、点估计

　　2、偏差bias(θ^‘_m)=E(θ^‘_m)-θ

　　→若偏差为0，那么估计量θ^‘_m称为无偏估计；若m趋近于无穷时，偏差极限为0，那么估计量θ^‘_m称为渐进无偏。

　　3、方差（variance）和标准差（standard error）

　　4、均方误差（mean squared error，MSE）=E[(θ^‘_m-θ)²]=Bias(θ^‘_m)²+Var(θ^‘_m)

　　　 MSE度量着估计和真实参数θ之间平方误差的总体期望偏差。

　　→偏差和方差对于机器学习的容量、欠拟合、过拟合紧密相联。用MSE度量泛化误差时，增加容量会增加方差，降低偏差。

　　5、一致性（consistency）：保证了估计量的偏差会随数据样本数目的增多而减少。

五、最大似然估计：最常用的估计准则

　　最小化KL散度其实就是在最小化分布之间的交叉熵。

六、贝叶斯统计：用概率反映知识状态的确定性程度

　　1、与最大似然估计相比，贝叶斯估计有两个重要区别：①使用的是θ的全分布，而不是点估计②先验能够影响概率质量密度朝着参数空间中偏好先验的区域偏移。

　　2、最大后验估计

以上是关于Part I/ Chapter 5 机器学习基础1的主要内容，如果未能解决你的问题，请参考以下文章

机器学习专家系列精品课程零基础到精通

Part I/ Chapter 2 线性代数基础1

Part 0/ Chapter 1 Introduction

Part I/ Chapter 3 信息论

机器学习中的优化 Optimization Chapter 1 Mathematics Background（数学基础）

HackingC++ Learning笔记 Chapter5-Standard Library – Part 1