机器学习笔记

Posted 2022-10-15 hhh江月

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习笔记相关的知识，希望对你有一定的参考价值。

机器学习笔记（四）

文章目录

- 机器学习笔记（四）

线性判别分析

线性判别分析（Linear Discriminant Analysis，简称LDA）,其基本思想是：将训练样本投影到一条直线上，使得同类的样例尽可能近，不同类的样例尽可能远。如图所示：

想让同类样本点的投影点尽可能接近，不同类样本点投影之间尽可能远，即：让各类的协方差之和尽可能小，不用类之间中心的距离尽可能大。基于这样的考虑，LDA定义了两个散度矩阵。

类内散度矩阵（within-class scatter matrix）

类间散度矩阵(between-class scaltter matrix)

因此得到了LDA的最大化目标：“广义瑞利商”（generalized Rayleigh quotient）。

从而分类问题转化为最优化求解w的问题，当求解出w后，对新的样本进行分类时，只需将该样本点投影到这条直线上，根据与各个类别的中心值进行比较，从而判定出新样本与哪个类别距离最近。求解w的方法如下所示，使用的方法为λ乘子。

若将w看做一个投影矩阵，类似PCA的思想，则LDA可将样本投影到N-1维空间（N为类簇数），投影的过程使用了类别信息（标记信息），因此LDA也常被视为一种经典的监督降维技术。

多分类学习

现实生活中的问题可能是由多种种类构成的，因此分类问题也并不局限于两种类型的回归的分析了，对于多余两种种类的多分类学习的回归分析问题，有三种思路，分别是：一对一，一对多（一对其余），多对多。其核心思想图如下所示：

以及：

类别不平衡问题

类别不平衡的问题是指在一个分类问题中，不同的类别对应的数据集的大小是不一样的，甚至相差很大，譬如：以二元分类为例，其中一个类别的数据集中总共有900条数据，但是另一个类别的数据集中只有100条数据，那么这两个类别的数据集训练样本就是相差比较悬殊的，因此就需要进行相应的处理来平衡有关的问题。处理这个不平衡的问题大致有三种方法：

在训练样本较多的类别中进行欠采样，常见的算法有EasyEnsemble
在训练样本较少的类别中进行过采样，常见的算法有SMOTE
直接对原数据集进行训练，但是对预测值需要进行再缩放的处理，其中再缩放也是代价敏感学习的基础，如下图所示：

小总结

以上我们就学习完毕了所有的有关于线性回归的问题，接下来我们要开始学习决策树部分的有关知识。

决策树

决策树是一种广泛被使用的分类算法，英文名为：Decision Tree。

决策树的基本概念

首先我们举一个例子：

  女儿：多大年纪了？
  母亲：26。
  女儿：长的帅不帅？
  母亲：挺帅的。
  女儿：收入高不？
  母亲：不算很高，中等情况。
  女儿：是公务员不？
  母亲：是，在税务局上班呢。
  女儿：那好，我去见见。

这个例子可以用决策树来进行描述：

在上图的决策树中，决策过程的每一次判定都是对某一属性的“测试”，决策最终结论则对应最终的判定结果。一般一颗决策树包含：一个根节点、若干个内部节点和若干个叶子节点，易知：

* 每个非叶节点表示一个特征属性测试。
* 每个分支代表这个特征属性在某个值域上的输出。
* 每个叶子节点存放一个类别。
* 每个节点包含的样本集合通过属性测试被划分到子节点中，根节点包含样本全集。

决策树的构造

ID3算法

ID3算法使用信息增益为准则来选择划分属性，“信息熵”(information entropy)是度量样本结合纯度的常用指标，假定当前样本集合D中第k类样本所占比例为pk，则样本集合D的信息熵定义为：

假定通过属性划分样本集D，产生了V个分支节点，v表示其中第v个分支节点，易知：分支节点包含的样本数越多，表示该分支节点的影响力越大。故可以计算出划分后相比原始数据集D获得的“信息增益”（information gain）。

信息增益越大，表示使用该属性划分样本集D的效果越好，因此ID3算法在递归过程中，每次选择最大信息增益的属性作为当前的划分属性。

C4.5算法

ID3算法存在一个问题，就是偏向于取值数目较多的属性，例如：如果存在一个唯一标识，这样样本集D将会被划分为|D|个分支，每个分支只有一个样本，这样划分后的信息熵为零，十分纯净，但是对分类毫无用处。因此C4.5算法使用了“增益率”（gain ratio）来选择划分属性，来避免这个问题带来的困扰。首先使用ID3算法计算出信息增益高于平均水平的候选属性，接着C4.5计算这些候选属性的增益率，增益率定义为：

CART算法

CART决策树使用“基尼指数”（Gini index）来选择划分属性，基尼指数反映的是从样本集D中随机抽取两个样本，其类别标记不一致的概率，因此Gini(D)越小越好，基尼指数定义如下：

进而，使用属性α划分后的基尼指数为：

以上是关于机器学习笔记的主要内容，如果未能解决你的问题，请参考以下文章

机器学习算法整理决策树

机器学习—常用机器学习算法优缺点对比适用条件