《机器学习》二刷超详细笔记| 第一章绪论

Posted 2021-12-28 振华OPPO

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了《机器学习》二刷超详细笔记| 第一章绪论相关的知识，希望对你有一定的参考价值。

笔者在四月份学习完这本西瓜书，一头雾水，觉得机器学习实在太抽象，一直没有入门。开学后上完了必修的《machine learning》这门课，并且自己编程实现了多种算法以及复现论文后，才对机器学习有了一点了解，虽然离入门还有段距离，现在再次翻阅西瓜书，豁然开朗。所以出系列文章，进行回顾，总结和记录！

学习目录

1、引言
2、基本术语
3、假设空间
4、归纳偏好
5、发展历程

1、引言

我想大家肯定都听过机器学习，作为开场，我们先来了解一下什么是机器学习。

我们人都会根据乌云密布判断今天可能会下雨，今天天气冷要多穿衣服，买西瓜时候会敲敲瓜看看是否浊响，这些都是依据我们自己的生活经验。那么我们能否用计算机来实现上面的过程？

机器学习正是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，即“机器学习算法”。

斯坦福大学人工智能教授吴恩达的总结更加简介：

机器学习就是我们获得一些数据，通过计算机建立模型，然后处理新的数据的。

2、基本术语

学习一门学科，专业术语肯定要说对，这是最基本的。

我们先收集一批关于西瓜的数据，例如下面的这些记录，“=”的意思是“取值为”
![在这里插入图片描述](https://img-blog.csdnimg.cn/501eb0bae4bf412c95262a9803ca1e55.png!
数据集：这组记录的集合我们称为一个数据集。
样本：其中每条记录是关于1个事件/对象的描述，也就是每条记录称为1个样本。
属性：像“色泽”、“根蒂”、“敲声”这些描述事件或对象性质的条目称为“特征”，或者“属性”。
属性值：属性上的取值也就叫属性值，比如“浅白”。
样本空间：属性长成的空间，例如这里，我们把色泽、根蒂和敲声三个属性作为三个坐标轴，那就张成了一个用于描述西瓜的三维空间。每个西瓜（样本）都可以找到一个点和自己对应，这样一个样本其实也叫做一个“特征向量”。

训练：从数据中获得模型的过程称为“训练”，这个过程提供执行某个机器学习算法（逻辑回归等等）来实现。
训练过程中使用的数据称为“训练数据”，其中每个样本称为“训练样本”，“训练样本”组成的集合称为“训练集”。学习的过程就是将机器每次对事物的假设（hypothesis）和我们的真实（ground-truth）无限逼近。

这里有关于样本的结果的信息，例如“好瓜”就称为“标记”（label），拥有了标记的样本（sample）称为样例（example）。

分类：如果我们预测的是离散值，比如“好瓜”、“坏瓜”，此学习称为分类。
回归：如果我们预测的是连续值，比如西瓜成熟度0.95、0.36，此学习任务称为回归。

二分类：只涉及两个类别的分类任务，其中一个类为正类，另一个为反类，输出一般为-1，+1或0,1。
多分类：涉及多个类别的分类任务，输出空间一般|y|>2。

测试：学得模型后使用它进行预测的过程，被测试的样本称为“测试样本”（因为测试样本不包含标签）。

根据训练数据是否拥有标记信息，学习任务大致分为两类：

监督学习：分类和回归，也就是有导师学习，带着你学。
无监督学习：聚类，也就是无导师学习，简称自学。

3、假设空间

归纳是从特殊到一般的“泛化”，演绎是从一般到特殊的“特化”。
从样例中学习，显然是一个归纳的过程，因此机器学习也称归纳学习。

一个西瓜数据集就应该长这样，X1、X2、X3就是输入特征，Y就是标记：

如果只是记住训练样本，不能对新样本进行判断和预测，就叫机械学习。
而我们机器学习不仅是记住，而且还能判断和预测。

4、归纳偏好

机器学习算法在学习过程中会对某种类型假设的偏好，称为“归纳偏好”。简单来理解就是，每个特征对应的权重不同，比如我给色泽设定的权重是0.5，给根蒂设定的权重是0.1，给敲声设定的权重是0.8，那么Y=0.5X1+0.1X2+0.8*X3+b，这里b是常量，代表偏置值，那么X3几乎决定了Y的值。

奥卡姆剃刀：多个假设与观察一致时，选最简单的那个。并且机器学习中，我们认为“更平滑”意味着“更简单”。
“没有免费的午餐”定理：无论学习算法a有多么聪明，学习算法b多么笨拙，它们（对于所有样例）的数学期望都是相同的。

5、发展历程

以上是关于《机器学习》二刷超详细笔记| 第一章绪论的主要内容，如果未能解决你的问题，请参考以下文章

《机器学习》二刷超详细笔记| 第一章 绪论