机器学习基础-监督学习与无监督学习

Posted nuist__NJUPT

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习基础-监督学习与无监督学习相关的知识,希望对你有一定的参考价值。

机器学习基础-监督学习与无监督学习

机器学习(Machine Learning)主要研究计算机系统对特定任务的性能,逐步进行改善的算法和统计模型。

通过输入海量数据模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类和预测

机器学习主要包括:有监督学习,无监督学习及强化学习,神经网络与深度学习,集成学习。

我们主要介绍和学习的是监督学习和无监督学习。

无监督学习算法采用一组仅包含输入的数据,通过寻找数据内在结构进行样本点的分组或聚类。该算法从没有被分类和测试的数据中去学习,无监督学习不是响应反馈,而是识别数据中的共性特征,对于一个新数据,可以通过判断其中是否存在这种特征,来做出相应的反馈。

无监督学习的核心应用是统计学中的密度估计和聚类分析。

监督学习算法构建了包含输入和所需输出的一组数据的数学模型,这些数据称为训练数据,由一组训练样本组成。

监督学习主要包含分类和回归,当输入为离散值时候,使用分类算法,当输入为连续值时,使用回归算法。

相似度学习是和分类与回归都密切相关的监督机器学习,它的目的是使用相似性函数从样本中进行学习,这个函数可以度量两个样本的相似度或关联度。

监督学习的三要素:模型,策略,算法。

如下图所示:监督学习过程,类似于求解二元一次方程,输入数据进行求解,求解完成,带入新数据进行预测,和房屋售卖情况预测也类似,通过大量数据进行训练,待模型成熟,输入新数据进行预测。

模型评估策略和模型选择

训练集:输入到模型中对模型进行训练的数据集合。
测试集:模型训练完成后测试训练效果的数据集合。

损失函数:用来恒衡量模型预测误差的大小。
定义:选取模型f为决策函数,对于给定的输入参数x,f(x)为预测结果,y为真实值,f(x)与y之间肯会存在偏差,我们使用损失函数来度量预测偏差的程度,记作L(y,f(x))

损失函数是系数的函数,损失函数值越小,误差越小,模型越好。

对于0-1损失函数,只要有偏差,则损失函数为1,当且仅当预测值和真实值相等的时候,损失函数为0.

平方损失函数,真实值与预测值之差的平方。

绝对损失函数,真实值与预测值之差的绝对值。

对数损失函数,对条件概率进行取对数。

经验风险:模型f(x)关于训练集数据的平均损失函数称为经验风险,公式入戏:

经验风险最小化(ERM),该策略认为经验风险最小的模型就是最优模型,当样本足够大的时候ERM有很好的学习效果,当样本比较小的时候,ERM就会出现一些问题。

训练误差:关于训练集的平均损失,训练误差的大小可以用来判定给定的问题是否容易学习。

测试误差:关于测试集的平均损失,真正的反映了模型对未知事物的预测能力,这种能力称为泛化能力。

过拟合:模型在训练集效果很好,学习的太彻底,以至于把噪声数据也学习到了,到测试集效果比较差,模型的预测能力不足,即泛化能力差。

欠拟合:模型对特征的学习不够,在训练集的表现就很不好。

我们观察如下图,10个样本点,用一个M次数多项式拟合函数进行拟合,当次数M等于0或者1的时候,我们称为欠拟合,当次数M等于3的时候,我们称为合适拟合,当M等于9的时候,我们称为过拟合。

如下图所示,当模型的复杂度越大,训练误差就会逐渐减小,趋近于0,而测试误差会先减小到最小值,然后增大。故模型的复杂度并不是越大越好,当模型的复杂度过大就会发生过拟合。

正则化:在ERM的基础上,为防止过拟合提出来的策略,在经验风险上加上表示模型复杂度的正则化项,也称为惩罚项。

结构风险最小化的典型实现就是正则化,如下图公式所示,第一项是经验风险,第二项是正则化项,正则化项可以去不同的形式。

数据集的划分:如果样本充足,一种简单的方法就是将数据集分成三部分,即训练集,验证集和测试集。

训练集用于训练模型,验证集用于模型选择,测试集用于预测评估。

当数据量不足,可以重复利用数据,做交叉验证。

1-简单交叉验证:数据随机的分成两部分,如70%作为训练集,剩下30%作为测试集,训练集训练得到不同模型,测试集进行测试得到最优模型。

2-S折交叉验证:将数据分成S个互不相交,大小相同的数据集,S-1个做训练集,剩下的1个做测试集

监督学习问题主要划分成两类,即分类问题和回归问题。

分类问题预测数据属于哪一类别,即离散问题。
回归问题根据数据预测一个数值,即连续问题。回归问题的学习等价于函数拟合。

例如:对于房屋售卖的预测,通过给定大量数据去训练模型预测房屋能否卖出去,这就是一个典型的分类问题,结果就两种可能,即能卖出去(1)或者卖不出去(0)。

再例如:对房屋的售卖价格进行预测,或者对于卖出的概率进行预测,都是回归问题,因为结果为一个连续的数值,而不是离散的0或者1。

回归问题

回归问题的分类
按照输入变量的个数,分为一元回归和多元回归
按照模型的类型,分为线性回归和非线性回归

回归学习的损失函数选为平方损失函数,回归问题可以用最小二乘法来求解。

梯度下降算法

梯度下降是常用的一阶优化方法,是求解无约束优化最简单,最经典的方法之一。

梯度方法:函数变化增长最快的方向,即变量沿此方向变化时,函数增长最快。

负梯度方向:函数变化减少最快的方向,即变量沿此方向变化时,函数减少最快。

损失函数是系数的函数,如果系数沿着损失函数的负梯度变化,此时损失函数减少最快,能够以最快速度下降到最小值。

如下图所示,沿着负梯度方向迭代,迭代后的参数使得损失函数更小。

梯度下降一般找到是局部最优解,未必是全局最优解。

以上是关于机器学习基础-监督学习与无监督学习的主要内容,如果未能解决你的问题,请参考以下文章

机器学习笔记之生成模型综述监督学习与无监督学习

监督学习与无监督学习

机器学习的动机与应用,监督学习与无监督学习

监督学习与无监督学习

机器学习10 11.分类与监督学习,朴素贝叶斯分类算法

机器学习10 11.分类与监督学习,朴素贝叶斯分类算法