2. 监督学习之分类

Posted starrow

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2. 监督学习之分类相关的知识,希望对你有一定的参考价值。

1.1监督学习

机器学习的第一种范式是监督学习(Supervised learning),学习的目标是根据输入预测输出的函数。例如,输入是患者的检查数据,输出是疾病的诊断结果;输入是动物图片,输出是它们的名称;输入是未来的某个日期,输出是该日的降雨量。输出值定性还是定量,对问题描述和所用学习方法影响很大,因而习惯上监督学习以其为标准分为两个主题。如果输出值是定性和离散的,监督学习称为分类(Classification),其输出值又称为类别,如患者某项疾病的诊断结果。如果输出值是定量的(常常是连续的),监督学习则称为回归(Regression),如对降雨量的预测。

1.1.1分类

让我们通过一个例子来认识分类。假设我是一家汽车卖场的老板,且拥有所有进入卖场的顾客的年龄和收入数据。我想预知某位顾客是否会买车。用监督学习的术语来说,就是根据顾客的年龄和收入对他们进行分类,一类是会买车的,一类是不会买车的。从函数的角度看,输入是顾客的年龄和收入,输出则是一个表明他是否会买车的值。为了得出该函数,监督学习必须具备大量训练所用的数据,其中的每个实例既包括输入,也包括所期望函数的输出。这些已知的输出被称为数据的标记(Label),所以监督学习所用的数据被称为标记数据。

回到上述例子,一个标记数据的实例由一位走进商场顾客的年龄、收入和他有没有买车组成。要建立一个从输入到输出的函数,有多种不同的方式。这里采用几何的方式,以平面上的点来表示数据实例,以几何线条来直观地代表函数。如图1.1所示,横轴表示收入,纵轴表示年龄,每个点代表一位顾客,灰色代表他最终没有买车,黑色则相反。

图1.1 汽车卖场顾客的训练数据

如图1.2所示,最简单的函数是一根垂直于横轴的直线,直线的左边绝大多数是灰点,右边则基本上是黑点。此函数意为,若顾客的收入低于某个值,就不会买车;若高于该值,则会买车。值得注意的是,该函数只使用了提供给它的两个输入变量中的一个——收入,而忽略了另一个变量——年龄。应该说它的表现还不错,除了少数例外,它正确区分了灰点和黑点。

 图1.2 用一条垂直于横轴的线对顾客进行分类

当然该函数可以改进。在图1.3中,两个原本在直线右侧的灰点被新的直线划归进正确的类别。这样,直线的左边除了一个黑点,全是灰点;而直线的右边除了一个灰点,全是黑点。新函数的表现较好,因为它不仅使用了收入变量,也使用了年龄变量。当顾客的年龄上升时,决定他是否会买车的阈值会提高,或者反过来说,在收入相同时,年轻顾客比年长顾客更倾向于会买车。

图1.3 用一条斜线对顾客进行分类

还可以继续改进该函数,在图1.4中,除了一个讨厌的灰点外,所有的灰点和黑点都处于曲线的正确一侧。

回顾至此所用的三个函数:

  • 第一个函数是垂直于横轴的直线,只需一个横轴的截距就可以定义,
  • 第二个函数是斜线,需要截距和斜率两个参数来定义,
  • 第三个函数复杂一些,可以看作一条二次曲线,因此需要三个参数来定义,

 函数的表现越来越好,与此同时,也变得越来越复杂,计算参数的成本越来越高。然而函数的复杂度与其表现之间的正比关系并不会一直延续。如图1.5所示,继续改进函数的表现,最后一个例外也被消除。但是很明显,这条曲线不像是我们要找的函数——它太古怪了。仅仅为了将一个灰点划入正确的一侧,函数的定义至少需要增加两个参数,成本过高。从另一个角度看,这个灰点被包围在黑点的海洋中,很可能是不正常的。也许这位顾客实际买了车,却没有被记录;又或许他正要买车,忽然接到了一个电话,离开了。总之,这个数据实例很可能是噪声。所以,二次曲线不仅更简单也更准确,被选为预测分类的函数。

图1.5 用一条复杂的曲线对顾客进行分类

容易想象分类的应用场景:将医疗影像按照求诊者是否患病来分类就是疾病诊断,将手写文字按照字符来分类就是文字识别,将语音按照词汇的发音来分类就是语音识别,将网页按照与关键字是否有关来分类和排序就是搜索引擎,将商品和服务按照用户是否感兴趣来分类就是推荐系统。

以上是关于2. 监督学习之分类的主要内容,如果未能解决你的问题,请参考以下文章

机器学习笔记-监督学习之决策树

监督学习之模型评估与选择

2019-07-25机器学习无监督学习之聚类 K-Means算法实例 (1999年中国居民消费城市分类)

[机器学习][K-Means] 无监督学习之K均值聚类

无监督学习之聚类2——DBSCAN

机器学习--- 监督学习之回归