DW吃瓜课程——机器学习理论知识笔记
Posted 刘国栋_1996
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DW吃瓜课程——机器学习理论知识笔记相关的知识,希望对你有一定的参考价值。
本篇是针对经典教材《机器学习》及DataWhale小组出版的配套工具书《机器学习公式详解》的学习笔记,主要以查缺补漏为主,因此对于一些自己已经熟悉的概念和内容不再进行整理。由于水平实在有限,不免产生谬误,欢迎读者多多批评指正。
第一章 绪论
基本概念
独立同分布:若假设样本空间中的全体样本服从某种(未知的)分布,而我们的每个具体的样本都是通过独立采样获得的,则称这些样本“独立同分布”(independent and identically distributed,简称i.i.d.)。独立同分布是机器学习的基本假设之一。
假设空间与版本空间:在不考虑与观察样本匹配的情况下,针对特征取值组合的所有可能的假设共同构成了假设空间。机器学习的过程可以看作一个在假设空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设。这些与“现实”相符的假设的集合被称为版本空间(version space)。
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好(inductive bias)。归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
“没有免费的午餐”定理:假设所有“问题”出现的机会相同、或所有问题同等重要,则不同学习算法(甚至包括随机输出的函数)之间的期望性能均相同,这就是“没有免费的午餐”定理(NFL定理)。但是在实际情况中,我们只会关心和研究一部分具体的、与事实符合的问题,此时某些学习算法就会体现出更好的预测和泛化性能。因此脱离具体问题去讨论“什么学习算法更好”是没有意义的。
参考资料:
- 《机器学习》 周志华 著
- 《机器学习公式详解》 谢文睿 秦州 著
- https://www.bilibili.com/video/BV1Mh411e7VU?p=1 《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集
以上是关于DW吃瓜课程——机器学习理论知识笔记的主要内容,如果未能解决你的问题,请参考以下文章