机器学习入门-过拟合欠拟合
Posted -早起的码农
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习入门-过拟合欠拟合相关的知识,希望对你有一定的参考价值。
机器学习最重要的就是模型训练
训练结果怎么反馈,一般有三种叫法,欠拟合,拟合,过拟合。下面介绍下白话介绍下具体含义
下面三个图分别展示的是欠拟合,合适拟合,过拟合
针对线性回归模型:
针对逻辑回归模型:
解释:
1,形象例子
欠拟合:光看书不做题觉得自己会了,上了考场啥都不会。
过拟合: 课后题全能做对但是理解的不好,好多题答案都是强背下来的,上考场变一点儿人就懵逼
差不多的拟合: 做了题,背了老师给画了重点,考试60分过了。
优秀的拟合: 课后题全能作对,考试100分。
特征选择就是划重点。
一个人如果连身边时时见、日日见的现有环境都适应不了,这叫欠拟合,说白了是缺少训练
如果在已有环境如鱼得水,新环境下分分钟死翘翘,这叫过拟合,说白了是在小数据范围内过渡训练
2, 学习进行的太彻底,把样本数据的所有特征几乎都习得了,于是机器学到了过多的局部特征, 造成模型的“泛化性”和识别正确率几乎达到谷点,于是你用你的机器识别新的样本的时候会发现就没几个是正确识别的。
先找你表妹问喜欢什么,表妹说她喜欢干净帅气的男生,还说她喜欢周杰伦,喜欢火锅,喜欢酸菜鱼,合计一百条规矩。你规规矩矩地按照要求学习,终于符合表妹的一切要求,0 Error,训练完成,超级自信准备出去试试追个妹子。
可是换了个妹子,发现学到的似乎没想象中有用。第二个妹子只要你干净帅气。后面的九十八条她都不care,她甚至讨厌吃火锅,那后面98条只会增加误差。这就过拟合了。
怎么防止过拟合呢?应该用cross validation,交叉比对。
解释起来就是,你在你表妹那儿学到的东西,在你表姐那儿测试一下对不对。在你表姐那儿学到的,在你二姐那测试一下。来来回回用不同的测试对象和训练对象做交叉比对。这样学到规律就不会过拟合啦~
3, 过度拟合的其中一种现象就是认为噪声也是有效数据的一部分, 训练数据的选取也是很关键的,良好的训练数据本身的局部特征应尽可能少,噪声也尽可能小。
一個非洲酋長到倫敦訪問,一群記者在機場截住了他。
早上好,酋長先生", 其中一人問道:你的路途舒適嗎?
酋長發出了一連串刺耳的聲音哄、哼、啊、吱、嘶嘶,
然后用純正的英語說 道 :是的,非常地舒適。
那麼!您准備在這里待多久?
他發出了同樣的一連串噪音,
然後答:大約三星期,我想。
酋長,告訴我,你是在哪學的這樣流利的英語?迷惑不解的記者問。
又是一陣哄、吭、啊、吱、嘶嘶聲,
酋長說:從短波收音機裡。以上是关于机器学习入门-过拟合欠拟合的主要内容,如果未能解决你的问题,请参考以下文章