机器学习笔记之生成模型综述监督学习与无监督学习

Posted 2023-03-02 静静的喝酒

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习笔记之生成模型综述监督学习与无监督学习相关的知识，希望对你有一定的参考价值。

机器学习笔记之生成模型综述——监督学习与无监督学习

引言

引言

上一节介绍了生成模型的判别方式，本节将从机器学习需要解决的任务——监督学习、无监督学习的角度，对现阶段经典模型进行总结。

回顾：生成模型介绍

判别方式：生成模型 $\\textVS$ 判别模型

生成模型( $\\textGenerative Model$ )的核心判别方式是：建模所关注的对象是否在样本分布自身。例如逻辑回归与朴素贝叶斯分类器。虽然这两个算法均处理基于监督学习的分类任务，并且均是软分类算法，但关注点截然不同：

逻辑回归( $\\textLogistic Regression$ )的底层逻辑是最大熵原理，通过 $\\textSigmoid,\\textSoftmax$ 函数直接对后验概率 $\\mathcal P(\\mathcal Y \\mid \\mathcal X)$ 进行描述：
以二分类为例，此时 $\\mathcal Y$ 服从伯努利分布。
$\\mathcal P(\\mathcal Y \\mid \\mathcal X) = \\begincases \\textSigmoid(\\mathcal W^T\\mathcal X + b) \\quad \\mathcal Y = 1\\\\ 1 - \\textSigmoid(\\mathcal W^T\\mathcal X + b) \\quad \\mathcal Y = 0 \\endcases$
很明显，这里我们仅关注 $\\textSigmoid$ 函数结果。而 $\\mathcal X$ 的特征信息仅作为与模型参数 $\\mathcal W$ 做内积的工具而已，并不是我们关注的对象；
朴素贝叶斯分类器( $\\textNaive Bayes Classifier$ )针对后验概率 $\\mathcal P(\\mathcal Y \\mid \\mathcal X)$ ，通过贝叶斯定理将其转化为 $\\mathcal P(\\mathcal X \\mid \\mathcal Y) \\cdot \\mathcal P(\\mathcal Y)$ 之间的大小关系：
- 关于分母 $\\mathcal P(\\mathcal X)$ 的完整形式是 $\\int_\\mathcal Y\\mathcal P(\\mathcal X \\mid \\mathcal Y) \\cdot \\mathcal P(\\mathcal Y) d\\mathcal Y$ ,该项自身与 $\\mathcal Y$ 无关，可视作常数。
- 这里依然以二分类为例, $\\mathcal Y$ 同样服从伯努利分布。
  $\\beginaligned \\mathcal P(\\mathcal Y \\mid \\mathcal X) = \\frac\\mathcal P(\\mathcal X,\\mathcal Y)\\mathcal P(\\mathcal X) \\propto \\mathcal P(\\mathcal X,\\mathcal Y) = \\mathcal P(\\mathcal X \\mid \\mathcal Y) \\cdot \\mathcal P(\\mathcal Y) \\\\ \\mathcal P(\\mathcal X \\mid \\mathcal Y = 0) \\cdot \\mathcal P(\\mathcal Y = 0) \\overset\\text?\\Leftrightarrow \\mathcal P(\\mathcal X \\mid \\mathcal Y = 1) \\cdot \\mathcal P(\\mathcal Y = 1) \\endaligned$
在这里，我们关注的对象是联合概率分布 $\\mathcal P(\\mathcal X,\\mathcal Y)$ 。并且针对 $\\mathcal P(\\mathcal X,\\mathcal Y)$ 建模的过程中，设计了朴素贝叶斯假设：
$\\begincases x_i \\perp x_j \\mid \\mathcal Y \\quad (i\\neq j;x_i,x_j \\in \\mathcal X;\\mathcal X \\in \\mathbb R^p) \\\\ \\mathcal P(\\mathcal X \\mid \\mathcal Y) = \\mathcal P(x_1,\\cdots,x_p \\mid \\mathcal Y) = \\prod_i=1^p \\mathcal P(x_i \\mid \\mathcal Y) \\endcases$

生成模型的建模手段

如果针对监督学习，自带标签信息 $\\mathcal Y$ ，例如朴素贝叶斯分类器，通常针对联合概率分布 $\\mathcal P(\\mathcal X,\\mathcal Y)$ 进行建模；

如果是无监督学习，此时只有样本特征 $\\mathcal X$ ，主要分为两种情况：

如自回归模型( $\\textAutoregressive Model,AR$ )，它直接对 $\\mathcal P(\\mathcal X)$ 自身进行建模；
隐变量模型( $\\textLatent Variable Model,LVM$ )，通过假设隐变量 $\\mathcal Z$ ，对联合概率分布 $\\mathcal P(\\mathcal X,\\mathcal Z)$ 进行建模。

监督学习与无监督学习

从机器学习任务的角度观察：

分类( $\\textClassification$ )、回归( $\\textRegression$ ) 等明显属于监督学习任务；
而像降维( $\\textDimensionality Reduction$ )、聚类( $\\textCluster$ )、数据生成( $\\textData Generation$ ) 等属于无监督学习任务。

无论是监督学习还是无监督学习，都可以将其划分为概率模型与非概率模型。
这里的概率模型/非概率模型是指：在建模的过程中，其关于任务的返回结果是否考虑了概率分布。换句话说，概率是否直接参与到相关任务中去。

监督学习模型

基于监督学习的非概率模型

监督学习中的非概率模型，大方向指的是判别模型。在分类任务中，硬分类模型都是非概率模型。

感知机算法( $\\textPerceptron Linear Alpgorithm,PLA$ ) ：硬分类任务的对应模型均表示特征空间的超平面。区别在于样本划分的策略(模型表示后略)：
其中 $\\textSign$ 函数表示指示函数，在硬分类任务中，其大多指的是分段函数；而在软分类任务中，它可以是如 $\\textSigmoid$ 函数的连续函数。
$\\mathcal Y = \\textSign(\\mathcal W^T\\mathcal X + b)$
感知机算法的策略是错误驱动：
$\\begincases \\mathcal L(\\mathcal W,b) = \\sum_(x^(i),y^(i) \\in \\mathcal D) -y^(i)\\left(\\mathcal W^Tx^(i) + b \\right) \\\\ \\mathop\\arg\\min\\limits_\\mathcal W,b \\mathcal L(\\mathcal W,b) \\endcases$