学习笔记1:《机器学习》第二章 模型评估与选择

Posted 十五的月亮十七圆

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习笔记1:《机器学习》第二章 模型评估与选择相关的知识,希望对你有一定的参考价值。

2.1 经验误差与过拟合


1、训练误差(training error)/经验误差(empirical error):训练集上的误差;范化误差(generalization error):新样本的测试误差。

2、过拟合(overfitting);欠拟合(underfitting)。


2.2 评估方法


1、留出法:将数据集D分为互斥的训练集S和测试集T;通常将数据集的2/3~4/5用于训练,剩余样本用于测试。

2、交叉验证法:

        k折交叉验证(k-fold cross validation)即将数据集划分为k个大小相似的互斥子集,每个集合作为一次测试集。

        p次k折交叉验证 即将数据集通过k折方式随机划分重复p次。

注1:“10次10折交叉验证”与“100次留出法”都是进行了100次训练/测试

注2: 假设数据集D包含m个样本,若令k = m,则得到交叉验证法的一个特例:留一法(Leave-One-Out)。

3、自助法:从数据集D中随机采样,复制进入D',将D'作为测试集,D/D'作为测试集(D中样本不会采样斤D'中的概率为36.8%)。自助法会改变数据分布,数据量足够时,留出法和交叉验证法会更常用。

4、调餐与最终模型(parameter tuning):机器学习一般分为两类参数:算法参数(又称超参数) 和 模型参数;研究模型效果时,测试集用于判别模型的范化能力,训练数据通常分为训练集和验证集,基于验证集上的性能来进行模型调餐。



以上是关于学习笔记1:《机器学习》第二章 模型评估与选择的主要内容,如果未能解决你的问题,请参考以下文章

机器学习笔记绪论模型评估与选择

机器学习笔记模型评估与选择

机器学习总结之第二章模型评估与选择

——模型评估与选择笔记

机器学习 第2章 学习笔记模型评估与选择

周志华机器学习--模型评估与选择