学习笔记1:《机器学习》第二章 模型评估与选择
Posted 十五的月亮十七圆
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习笔记1:《机器学习》第二章 模型评估与选择相关的知识,希望对你有一定的参考价值。
2.1 经验误差与过拟合
1、训练误差(training error)/经验误差(empirical error):训练集上的误差;范化误差(generalization error):新样本的测试误差。
2、过拟合(overfitting);欠拟合(underfitting)。
2.2 评估方法
1、留出法:将数据集D分为互斥的训练集S和测试集T;通常将数据集的2/3~4/5用于训练,剩余样本用于测试。
2、交叉验证法:
k折交叉验证(k-fold cross validation)即将数据集划分为k个大小相似的互斥子集,每个集合作为一次测试集。
p次k折交叉验证 即将数据集通过k折方式随机划分重复p次。
注1:“10次10折交叉验证”与“100次留出法”都是进行了100次训练/测试
注2: 假设数据集D包含m个样本,若令k = m,则得到交叉验证法的一个特例:留一法(Leave-One-Out)。
3、自助法:从数据集D中随机采样,复制进入D',将D'作为测试集,D/D'作为测试集(D中样本不会采样斤D'中的概率为36.8%)。自助法会改变数据分布,数据量足够时,留出法和交叉验证法会更常用。
4、调餐与最终模型(parameter tuning):机器学习一般分为两类参数:算法参数(又称超参数) 和 模型参数;研究模型效果时,测试集用于判别模型的范化能力,训练数据通常分为训练集和验证集,基于验证集上的性能来进行模型调餐。
以上是关于学习笔记1:《机器学习》第二章 模型评估与选择的主要内容,如果未能解决你的问题,请参考以下文章