机器学习系列(二十四)——交叉验证与偏方差权衡

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习系列(二十四)——交叉验证与偏方差权衡相关的知识,希望对你有一定的参考价值。

参考技术A

前面我们学习了可以用测试数据集修正模型的过拟合现象,但是这样做其实是有一点问题的。每次我们用测试数据集来看模型的好坏,如果发现模型表现不好则取调整模型参数优化模型,我们相当于在针对这组测试数据集进行调参,这样最终得到的模型极有可能 针对测试数据集过拟合 的。
测试集非常非常珍贵,它相当于模型遇到的全新数据,一个真正好的机器学习模型应该对全新数据拥有很好的预测能力,因此测试数据集一般不参与模型的创建和训练过程,只在模型训练完成后做最终评价时使用。
于是之前学习中只划分训练集和测试集的方式就不合适了,解决的办法,就是将数据集划分为训练集、验证集和测试集。现在由验证集完成之前学习中测试集做的事情——调整超参数,最后用测试集来评价模型最终性能的好坏。当然验证集上也可能由于个别极端数据而导致验证集过拟合现象,为此我们有 交叉验证

这里是一个3折交叉验证,将训练数据等分为3份,其中2份做训练1份做验证来调参。这样可以得到3个模型,将这3个模型结果的均值作为调参的最终结果,这样做比只有一个验证集要优秀很多。下面将在手写数字数据集上用knn算法交叉验证看一下效果,首先看一下不用交叉验证的情况:

搜索结果:

不用交叉验证的情况,最优参数是k=2,p=2时,准确率达到99.2%。
使用交叉验证:

使用交叉验证搜索最优参数:

交叉验证最优参数:

交叉验证最优模型在测试集准确率:

交叉验证得到最优模型的最好的准确率一般相对于不使用交叉验证准确率都会略低,这是因为不使用交叉验证的情况下出现了过拟合现象。
交叉验证实际中不一定只分为3份,也可能更多,这里只是一个例子,相应有k折交叉验证(k-folds cross validation)。k折交叉验证相当于训练k个模型,故整体性能也会慢k倍。不过这样训练的参数会更加值得信赖,它有一个极端的情况是留一法LOO-CV(Leave-One-Out-Cross-Validation),就是k等于训练集样本个数,这样做将完全不受随机的影响,最接近模型真正的性能指标,但是计算量也将是巨大的。

不可避免的误差是客观存在的如数据本身有噪音,这样的误差算法无能为力。但是偏差和方差却可以通过一些手段进行优化。偏差产生的原因往往是对问题本身的假设不正确,如非线性数据使用线性回归,偏差一般和欠拟合是联系在一起的。方差是指数据的一点点扰动都会较大地影响模型,通常原因是使用的模型太过复杂,如高次幂多项式回归,方差一般和过拟合联系在一起,过拟合会极大引入方差。
有一些算法天生是高方差算法,如knn,非参数学习通常都是高方差算法,因为不对数据进行任何假设。有一些算法天生是高偏差算法,如线性回归,参数学习通常都是高偏差算法,因为对数据有很强的假设。偏差和方差通常是矛盾的,降低偏差会提高方差,降低方差会提高偏差。不过算法一般都可以通过调参来适当平衡偏差和方差。 机器学习的主要挑战来自于方差(解决过拟合问题)! ,解决高方差的手段一般有以下几种:

其中模型正则化是机器学习中非常常用且非常重要的降低过拟合的手段,将在下篇介绍。

机器学习100天(二十九):029 K折交叉验证

机器学习100天,今天讲的是:K 折交叉验证!

《机器学习100天》完整目录:目录

机器学习中,我们常会遇到一个问题,就是超参数的选择,超参数就是机器学习算法中的调优参数,比如上一节 K 近邻算法中的 K 值。K 折交叉验证就是帮助我们选择最优的超参数。

首先,介绍一下简单交叉验证。简单交叉验证就是将原始数据集随机划分成训练集和验证集两部分。例如将样本按照 70%~30% 的比例分成两部分,70% 的样本用于训练模型;30% 的样本用于模型验证。

简单交叉验证有两个缺点:(1)数据都只被所用了一次,没有被充分利用;(2)验证集上的效果与原始分组有很大关系。

K 折交叉验证是简单交叉验证的升级。如下图所示,它的做法是:

  • 1、首先,将全部样本划分成 K 个大小相等的子集,例如 k=10;
  • 2、依次遍历这 K 个子集,每次把当前子集作为验证集,其余所有样本作为训练集,进行模型的训练和评估;
  • 3、最后把 K 次评估指标的平均值作为最终的评估指标。

需要特别注意的是࿰

以上是关于机器学习系列(二十四)——交叉验证与偏方差权衡的主要内容,如果未能解决你的问题,请参考以下文章

机器学习100天(二十九):029 K折交叉验证

机器学习100天(二十九):029 K折交叉验证

机器学习100天(二十九):029 K折交叉验证

SIGAI机器学习第二十四集 高斯混合模型与EM算法

机器学习 多项式回归与模型泛化(下)

Spark2.0机器学习系列之2:基于Pipeline交叉验证ParamMap的模型选择和超参数调优