分类：概率生成模型 - 李宏毅机器学习笔记

Posted 2022-10-03 一杯敬朝阳一杯敬月光

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了分类：概率生成模型 - 李宏毅机器学习笔记相关的知识，希望对你有一定的参考价值。

1.若用回归模型硬train分类任务

如图，class 2 的标签是-1（红色的点），class 1 的标签是1（蓝色的点），横纵坐标是特征值。测试的时候输出可能不会正好就是1 或 -1，若输出接近1则认为是 class 1，接近-1则认为是 class 2，我们期待找到一条如图绿色的线能很好的分开两个标签，像左图回归任务训练出来的拟合线恰好就是绿色的线，绿色的线左上角是 class 2，右下角是 class 1；但是右图，回归任务通常是让预测值和真实值的差越小越好，所以为了也能很好的拟合到包括右下角那一堆样本的所有样本，最终的拟合线可能是紫色的那条（相比于绿色的线，所有样本到紫色的线的距离要更小），但是就分类任务而言，即使是右图的情况我们也还是希望会是绿色的线，因为它可以很好的分开所有样本，但是紫色的会错分一些 class 1的样本。所以用回归模型来做分类任务不合适。

若是用如下的回归模型的思路来做多分类。例如将class 1 对应 1，class 2 对应 2，class 3 对应3，这也是不合适的，因为这会带上数值的大小关系，模型会认为相对class 1而言，class 3 和 class 2 更接近。

2.二分类任务

但是上图中的损失函数没法微分。

2.1 概率生成模型

如下图，有两个盒子，现在抽出了一个蓝色的球，问该蓝色的球是从1号盒子中抽出的概率是多少，若知道选取1、2号盒子的概率，以及从2两个盒子里选取蓝色的球的概率，就可以用贝叶斯公式求解。

将上题类比到二分类。将两个盒子换成两个类别，给定一个样本 x ，他属于某个类别的概率是多少，这时候我们需要知道选取两个类别gezhi的概率是多少，以及从每个类别中选取 x 的概率是多少。至于为啥叫做生成模型，因为给定任一一个 x ，只要知道上述4个值，我们就能求出该 x 出现的机率，当我们能求所有 x 出现的机率，我们就知道了 x 的分布，那么就可以用这个分布产生 x 。

下面通过神奇宝贝的例子来说明概率生成模型，给定一个神奇宝贝，判断其是水系的还是一般系的，每个神奇宝贝用一个向量来表示，训练集中有79个水系的，61个一般系的。

和用先验知识给出，即和在整个样本中出现的频率。

需要知道4个值，其中俩已经给出，那么剩下的两个值和该如何计算呢？至于为啥这俩值不直接也用先验知识给出，可能是类别就是固定的2，可以用统计方法给出，但是我们的模型是为了预测没有见过的那些样本的类别，这种我们不一定能从训练数据中用统计方法给出。例如下图中的海龟在训练集中就没有出现过。

下图是仅考虑两个特征的熟悉的神奇宝贝的分布，下图每一个点代表一个水系的神奇宝贝。海龟是训练集中未出现过的，但是我们不能说从下面的分布中挑到海龟的概率是0。这个时候我们如何给出从水系的神奇宝贝里面跳到海龟的概率？我们可以认为训练集中的79个水系的神奇宝贝是从一个高斯分布中采样得到的，若能知道这个高斯分布我们就能给出，所以现在的问题变为如何通过训练集来找到这样的高斯分布。

下面引入高斯分布的介绍，相同不同（左图），代表概率分布的最高点不一样；不同相同（右图），代表概率分布的最高点一样，但是离散程度不一样。

所以，若是我们能从训练数据集中知道和，如下图我们就能写出该分布的式子，那么任意给定一个 x ，我们都能拿到在该分布下采样出 x 的概率。

现在我们的问题就变成了如何找和，如下图，这79个点可以从任何一个高斯分布中采样得到，因为高斯分布中采样出的点可以是空间中的任何点，只是有些地方几率高有些地方几率低，但是不存在几率精确为0的地方。右上角的高斯分布也能抽样出这79个点，不高几率很低；左下角的分布抽样出这79个点的概率就比较高了。下面用最大似然的概念来求解和，他表示给定一个和，我们采样出这79个点的概率，我们要找到一个分布使得它抽样这79个点的概率最大。