机器学习-周志华-第一章
Posted lfxiao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习-周志华-第一章相关的知识,希望对你有一定的参考价值。
绪论
1.1 引言
什么是机器学习?
它是一门致力于研究如何通过计算的手段,利用经验来改善系统自身性能的一门学科。所研究的主要内容是计算机如何通过数据产生模型,即学习算法。有了学习算法后,当我们给它提供经验数据时就能基于这些数据产生模型。在面对新数据时学习算法会给我们相应的判断。经验通常以数据的形式存在
名词理解
模型:一类问题的解题步骤
算法:一个问题的解题步骤
学习算法:由数据产生的一类问题的解题步骤。通过学习算法从数据中获得模型
ps:阿尔法狗零自学三天以100:0战胜阿尔法狗。这里阿尔法狗零利用人类经验提升自身能力,这就是机器学习
1.2 基本术语
数据集
示例
属性、特征
属性空间、样本空间、输入空间:数据的维度空间
特征向量:
学习、训练:从数据中学得模型的过程
训练数据:训练过程中使用的数据
训练样本:
训练集:多个训练样本的集合
假设:学到的模型
真相:数据某种潜在的规律
标记:示例的结果信息
样例:有标记信息的示例
标记空间、输出空间:(x,y),y:所有标记的集合
分类:预测值是离散的学习任务
二分类:只涉及两个类别的分类
多分类:
回归:预测值是连续的学习任务
聚类:将训练集中的示例分组
监督学习:训练数据中拥有标记信息的学习任务 。如分类和回归
无监督学习:训练数据中不包含标记信息的雪人任务;如聚类
泛化能力:学得模型适用于新样本的能力
1.3 假设空间
科学推理两大基本手段:归纳和演绎
归纳:从特殊到一般的泛化过程,即从具体事实归纳出一般性规律。从样例中学习,显然是一个归纳过程,也称归纳学习
演绎:从一般到特殊的特化过程,即从基础原理推演出具体状况。例如在数学中,由一组公理推到出定理,这就是演绎
归纳学习有广义和狭义之分
广义归纳学习基本是从样例(带有标记信息的训练数据)中学习
狭义归纳学习要求从训练数据中学得概念,称为概念学习。概念学习技术目前研究和应用都比较少
由概念学习学得概念,由概念得知假设空间。图1.1 西瓜问题的假设空间
整个学习过程:概念学习学得好瓜概念,可以得出好瓜可能的组合,再根据样例数据排除非好瓜的组合,最好得出好瓜的假设
版本空间:一组与训练集一致的假设 如何求取版本空间。
求取版本空间:版本空间就是从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。
1.4 归纳偏好
当学得模型(多个)面临新样本时,产生不同的输出,这样的学习结果是没有意义的。在产生不同输出时必须选择一个更信赖的模型,这就是归纳偏好。一个有效的学习算法,必须有归纳偏好。大多数时候归纳偏好直接决定了学习算法能否取得好的性能
归纳偏好原则:
奥卡姆剃刀(occam‘s razor):若有多个假设与与观察一致,选择最简单的
没有免费午餐定理(no freee lunch theorem 简称NFL定理 ):若A算法在某些问题上比B算法要好,那必然存在在某些问题上B算法比A算法要好。即没有一个算法试用于任何情况。NFL最重要的寓意是让我们清楚的认识到,脱离具体问题空谈什么学习算法更好是没有意义的。因为若考虑所有潜在问题NFL已经证明了所有算法一样好。
问题:
为什么概念学习中使用样例数据?按照狭义归纳学习应该使用训练数据
课后习题:完整答案
1.1
先看看版本空间定义,文章写得不错
版本空间就是从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。
解:
假设空间指的是问题所有假设组成的空间,我们可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找与训练集“匹配”的假设。
假设数据集有n种属性,第i个属性可能的取值有titi种,加上该属性的泛化取值(*),所以可能的假设有∏i(ti+1)∏i(ti+1)。再用空集表示没有正例,假设空间中一共∏i(ti+1)+1∏i(ti+1)+1种假设。
现实问题中常面临很大的假设空间,我们可以寻找一个与训练集一致的假设集合,称之为版本空间。版本空间从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。
编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响 是
2 乌黑 稍蜷 沉闷 否
数据集有3个属性,每个属性2种取值,一共 3?3?3+1=283?3?3+1=28种假设,分别为
1.色泽=青绿 根蒂=蜷缩 敲声=浊响
2.色泽=青绿 根蒂=蜷缩 敲声=沉闷
3.色泽=青绿 根蒂=稍蜷 敲声=浊响
4.色泽=青绿 根蒂=稍蜷 敲声=沉闷
5.色泽=乌黑 根蒂=蜷缩 敲声=浊响
6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷
7.色泽=乌黑 根蒂=稍蜷 敲声=浊响
8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷
9.色泽=青绿 根蒂=蜷缩 敲声=*
10.色泽=青绿 根蒂=稍蜷 敲声=*
11.色泽=乌黑 根蒂=蜷缩 敲声=*
12.色泽=乌黑 根蒂=稍蜷 敲声=*
13.色泽=青绿 根蒂=* 敲声=浊响
14.色泽=青绿 根蒂=* 敲声=沉闷
15.色泽=乌黑 根蒂=* 敲声=浊响
16.色泽=乌黑 根蒂=* 敲声=沉闷
17.色泽=* 根蒂=蜷缩 敲声=浊响
18.色泽=* 根蒂=蜷缩 敲声=沉闷
19.色泽=* 根蒂=稍蜷 敲声=浊响
20.色泽=* 根蒂=稍蜷 敲声=沉闷
21.色泽=青绿 根蒂=* 敲声=*
22.色泽=乌黑 根蒂=* 敲声=*
23.色泽=* 根蒂=蜷缩 敲声=*
24.色泽=* 根蒂=稍蜷 敲声=*
25.色泽=* 根蒂=* 敲声=浊响
26.色泽=* 根蒂=* 敲声=沉闷
27.色泽=* 根蒂=* 敲声=*
28.空集?
编号1的数据可以删除 2?8,10?12,14?16,18?20,22,24,26,282?8,10?12,14?16,18?20,22,24,26,28(不包含数据1)
编号1的数据可以删除 2727(包含了数据2)
所以版本空间为:
1.色泽=青绿 根蒂=蜷缩 敲声=浊响
9.色泽=青绿 根蒂=蜷缩 敲声=*
13.色泽=青绿 根蒂=* 敲声=浊响
17.色泽=* 根蒂=蜷缩 敲声=浊响
21.色泽=青绿 根蒂=* 敲声=*
23.色泽=* 根蒂=蜷缩 敲声=*
25.色泽=* 根蒂=* 敲声=浊响
一般情况下版本空间是正例的泛化,但由于数据集中只有1个正例,所以在版本空间中依然包含了这个样本的假设(假设1)。
---------------------
作者:四去六进一
来源:CSDN
原文:https://blog.csdn.net/icefire_tyh/article/details/52065224
版权声明:本文为博主原创文章,转载请附上博文链接!
1.2
析取范式 合取范式的概念 https://baike.baidu.com/item/%E6%9E%90%E5%8F%96/2841171?fr=aladdin
析取:逻辑或运算,并集;符号:∨
合取:逻辑与运算,交集;符号:∧
范式:范式为各种千变万化的命题公式提供了一个统一(规范)的表达形式
简单析取式:有限个文字构成的析取式
简单合取式:有限个文字构成的合取式
析取范式:有限个简单合取式构成的析取式
合取范式:有限个简单析取式构成的合取式
以上是关于机器学习-周志华-第一章的主要内容,如果未能解决你的问题,请参考以下文章