机器学习吃瓜教程学习笔记1
Posted aryamaya
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习吃瓜教程学习笔记1相关的知识,希望对你有一定的参考价值。
第一章 绪论
1.2 基本术语
- 数据集 ,包含m个样本的集合。
- 特征,样本的属性描述。
- 样本空间 ,每个样本有d个特征,特征张成的空间就是样本空间,d就是维数;
- 训练集,用到算法里“学习”、“训练”的数据样本集合。
- 测试集,模型学习好之后,使用它来预测,也就是测试,被预测的样本集合就是测试集。
- 学习器,给定数据和参数的学习算法。
- 标记(label),训练样本的结果。拥有label的样本为样例。
- 标记空间(label space),又“输出空间”,所有标记的集合。
- 分类&回归,分类:预测离散值,即label是离散的,eg.是否欺诈用户;涉及两个类别就是二分类,包括正类和反类,涉及多个类别的是多分类。回归:预测连续值,eg.下雨的概率。这俩学习过程都是有监督学习,即有label。
- 聚类,将训练集中的样本分成若干个组,称为簇,这些簇不具有标记信息,故该学习过程为无监督学习。
- 泛化能力,模型适用于新样本的能力;训练样本多—>泛化能力强—>很好适用于整个样本空间。
1.3 假设空间
从样例中学习的过程就是“特殊—>一般”的归纳学习,狭义称为概念学习,eg.布尔概念学习(0/1);
学习的过程中不仅要判断训练集中已有的样本情况,还要判段未知的情况。实际上,就是把所有可能的假设情况都列出,然后找到与训练集匹配的。所有假设组成了假设空间。
第二章 模型评估与选择
2.1 经验误差与过拟合
- 精度 = 1-错误率
- 经验误差——训练集上的误差(可操作,经验误差最小化)
- 泛化误差——新样本上的误差(不可操作,测试误差替代)
- 过拟合:学习能力强,把训练样本的特殊性当作了样本空间的一般性。(无法彻底避免)
- 欠拟合:学习能力弱,训练样本的一些特质没学到。
2.2 评估方法
-
留出法,将数据集一分为二,训练集与测试集互斥,一般是2/3~4/5样本用于训练。
需要分层采样(数据分布尽量一致)、多次随机划分、重复实验,最后结果取平均。
缺陷:训练集样本过少—>评估结果保真性低;测试集样本过少—>评估结果稳定准确性低。
-
交叉验证法,把数据集划分为k个互斥子集(同分布),轮流抽一个出来作为测试集,其他为训练集。k决定评估结果的保真性和稳定性。
同样,需要随机使用不同的划分,重复p次。最终结果是p次k折交叉结果取均值。
-
自助法,有放回采样m次,采出来的样本作为训练集,未被采的样本作为测试集。
缺陷:改变了数据集的分布,适合数据集较小时使用。
注意:测试集评估模型的泛化能力,防止信息泄露,但还需要有验证集来调参、比较模型,也就是说训练之前,还需要划分出验证集。
2.3 性能度量
衡量模型泛化能力的评价标准;比较预测值和真实值。
回归——均方误差(各数据偏离真实值差值的平方和 的平均数)
分类——错误率(error rate)&精度(accuracy)
查准率(precision)&查全率(recall)
P:预测为正例的样本里,有多少是真的;
R:所有正例中,有多少被预测出来了;
比较学习器时,评估:
平衡点——P=R时的取值
F1——P和R的调和平均数
参考书籍:
[1]《机器学习》周志华
[2]《南瓜书》https://github.com/datawhalechina/pumpkin-book
以上是关于机器学习吃瓜教程学习笔记1的主要内容,如果未能解决你的问题,请参考以下文章