机器学习吃瓜教程学习笔记1

Posted 2021-09-07 aryamaya

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习吃瓜教程学习笔记1相关的知识，希望对你有一定的参考价值。

第一章绪论

数据集 ，包含m个样本的集合。
特征，样本的属性描述。
样本空间 ，每个样本有d个特征，特征张成的空间就是样本空间，d就是维数；
训练集，用到算法里“学习”、“训练”的数据样本集合。
测试集，模型学习好之后，使用它来预测，也就是测试，被预测的样本集合就是测试集。
学习器，给定数据和参数的学习算法。
标记（label），训练样本的结果。拥有label的样本为样例。
标记空间（label space），又“输出空间”，所有标记的集合。
分类&回归，分类：预测离散值，即label是离散的，eg.是否欺诈用户；涉及两个类别就是二分类，包括正类和反类，涉及多个类别的是多分类。回归：预测连续值，eg.下雨的概率。这俩学习过程都是有监督学习，即有label。
聚类，将训练集中的样本分成若干个组，称为簇，这些簇不具有标记信息，故该学习过程为无监督学习。
泛化能力，模型适用于新样本的能力；训练样本多—>泛化能力强—>很好适用于整个样本空间。

从样例中学习的过程就是“特殊—>一般”的归纳学习，狭义称为概念学习，eg.布尔概念学习（0/1）；

学习的过程中不仅要判断训练集中已有的样本情况，还要判段未知的情况。实际上，就是把所有可能的假设情况都列出，然后找到与训练集匹配的。所有假设组成了假设空间。

留出法，将数据集一分为二，训练集与测试集互斥，一般是2/3~4/5样本用于训练。

需要分层采样（数据分布尽量一致）、多次随机划分、重复实验，最后结果取平均。

缺陷：训练集样本过少—>评估结果保真性低；测试集样本过少—>评估结果稳定准确性低。
交叉验证法，把数据集划分为k个互斥子集（同分布），轮流抽一个出来作为测试集，其他为训练集。k决定评估结果的保真性和稳定性。

同样，需要随机使用不同的划分，重复p次。最终结果是p次k折交叉结果取均值。
自助法，有放回采样m次，采出来的样本作为训练集，未被采的样本作为测试集。

缺陷：改变了数据集的分布，适合数据集较小时使用。

注意：测试集评估模型的泛化能力，防止信息泄露，但还需要有验证集来调参、比较模型，也就是说训练之前，还需要划分出验证集。

衡量模型泛化能力的评价标准；比较预测值和真实值。

回归——均方误差（各数据偏离真实值差值的平方和的平均数）

分类——错误率(error rate)&精度(accuracy)

查准率(precision)&查全率(recall)
P：预测为正例的样本里，有多少是真的；
R：所有正例中，有多少被预测出来了；

比较学习器时，评估：
平衡点——P=R时的取值
F1——P和R的调和平均数

参考书籍:
[1]《机器学习》周志华
[2]《南瓜书》https://github.com/datawhalechina/pumpkin-book

以上是关于机器学习吃瓜教程学习笔记1的主要内容，如果未能解决你的问题，请参考以下文章