学习笔记1:《机器学习》第二章模型评估与选择

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了学习笔记1:《机器学习》第二章模型评估与选择相关的知识，希望对你有一定的参考价值。

2.1 经验误差与过拟合

1、训练误差（training error）／经验误差（empirical error）：训练集上的误差；范化误差（generalization error）：新样本的测试误差。

2、过拟合（overfitting）；欠拟合（underfitting）。

2.2 评估方法

1、留出法：将数据集D分为互斥的训练集S和测试集T；通常将数据集的2/3～4/5用于训练，剩余样本用于测试。

2、交叉验证法：

k折交叉验证（k-fold cross validation）即将数据集划分为k个大小相似的互斥子集，每个集合作为一次测试集。

p次k折交叉验证即将数据集通过k折方式随机划分重复p次。

注1：“10次10折交叉验证”与“100次留出法”都是进行了100次训练／测试

注2: 假设数据集D包含m个样本，若令k = m，则得到交叉验证法的一个特例：留一法（Leave-One-Out）。

3、自助法：从数据集D中随机采样，复制进入D'，将D'作为测试集，D／D'作为测试集（D中样本不会采样斤D'中的概率为36.8%）。自助法会改变数据分布，数据量足够时，留出法和交叉验证法会更常用。

4、调餐与最终模型（parameter tuning）：机器学习一般分为两类参数：算法参数（又称超参数）和模型参数；研究模型效果时，测试集用于判别模型的范化能力，训练数据通常分为训练集和验证集，基于验证集上的性能来进行模型调餐。

以上是关于学习笔记1:《机器学习》第二章模型评估与选择的主要内容，如果未能解决你的问题，请参考以下文章

学习笔记1:《机器学习》第二章 模型评估与选择