（笔记）斯坦福机器学习第五讲--生成学习算法

Posted 2020-09-21

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了（笔记）斯坦福机器学习第五讲--生成学习算法相关的知识，希望对你有一定的参考价值。

本讲内容

1. Generative learning algorithms（生成学习算法）

2. GDA（高斯判别分析）

3. Naive Bayes（朴素贝叶斯）

4. Laplace Smoothing（拉普拉斯平滑）

1.生成学习算法与判别学习算法

判别学习算法：直接学习技术分享或者学习一个假设直接输出0或者1。logistic回归是判别学习算法的一个例子。

生成学习算法：对技术分享建模，即在给定所属的类别的情况下，对特征出现的概率建模。出于技术上的考虑，也会对建模。

　　　　　　根据贝叶斯公式技术分享得到后验概率。

　　　　　　　其中

　　　　　　　技术分享

2.高斯判别分析

高斯判别分析属于生成学习算法

首先，高斯判别分析的两个假设：

(1). 技术分享 , 且是连续值

(2). 技术分享属于高斯分布

多元高斯分布

当一个随机变量z满足多元高斯分布时，

技术分享

所以z的概率密度函数如下

技术分享

向量技术分享是高斯分布的均值，矩阵是协方差矩阵，

技术分享

协方差矩阵对角线元素的值控制图像起伏的程度，反对角线元素的值控制图像起伏的方向。

均值控制图像中心的位置。

高斯判别分析模型

假设y服从伯努利分布，技术分享

用高斯分布对技术分享建模

技术分享

技术分享

这个模型的参数为技术分享

对这些参数作极大似然估计

技术分享

技术分享

这个公式被称为joint likelihood（联合似然性）

对于判别学习算法，我们的参数似然性公式定义如下

技术分享

这个公式被称为conditional likelihood（条件似然性）

因此，对于生成学习算法，我们对参数的联合似然函数作极大似然估计

　　 对于判别学习算法，我们对参数的条件似然函数作极大似然估计

对联合似然函数作极大似然估计，得到参数的值为

技术分享

技术分享

技术分享

技术分享

得到参数值之后，对于一个新样本x，预测值为

技术分享

　　　　　　　　技术分享

高斯判别分析和logistic回归的关系

假设技术分享属于高斯分布，那么一定可以推出是一个logistic函数，但是反推不成立。

这说明， 服从高斯分布的假设，要比服从logistic分布的假设更强。

那么该如何权衡高斯判别分析模型和logistic回归模型呢？

GDA做出了一个更强的假设，即技术分享服从高斯分布，一旦这个假设正确或者近似正确，那么GDA算法的表现将会比logistic回归要好。

因为这个算法利用了更多数据的信息，算法知道数据服从高斯分布。

相反地，如果不确定技术分享的分布情况，那么logistic回归将会表现的更好，logistic回归的弱假设使得logistic回归算法具有更好的鲁棒性，对不确定的数据分布依然能够得到一个较好的结果。

进一步，假设技术分享的分布属于指数分布簇，那么一定可以推出是一个logistic函数，但是反推不成立。

事实证明，使用生成学习算法的好处是，生成学习算法要比判别学习算法需要更少的数据，

即使在数据量特别小的情况下，生成学习算法依然能够拟合出一个还不错的模型。

3.朴素贝叶斯

朴素贝叶斯属于生成学习算法

对于一个垃圾邮件分类的问题，这是一个二分类的问题技术分享

那么对于一封邮件，我们如何创建特征向量x？

普遍的做法是创建一个词典，假设该词典包含50000个单词，那么对于邮件中出现的单词，我们在词典的相应位置置1，邮件中没有出现的单词，

词典中相应的位置置0.这样对于每一封邮件，我们就可以得到一个长度为50000的特征向量x

解决了特征向量的表示问题，那么该如何对技术分享建模呢？

假设采用多项式分布，特征向量x的取值有2^50000个，那么需要2^50000-1个参数，参数量实在是太大了。

因此朴素贝叶斯做了一个非常强的假设：给定y的时候，是相互独立的，（是指邮件中第i个位置的单词）

技术分享（链式法则）

　　　　　　　　　　　技术分享（朴素贝叶斯的强假设）

　　　　　　　　　　　技术分享

很显然朴素贝叶斯的假设是不可能成立的，但是事实证明朴素贝叶斯算法确实是一个非常有效的算法。

该模型的参数：

技术分享

技术分享

技术分享

联合似然函数为

技术分享

作极大似然估计（求偏导数，然后让其等于0）求得参数

技术分享

技术分享

技术分享

因此对于一封新的邮件x，预测值y为

技术分享

高斯判别分析模型和朴素贝叶斯模型的区别？

当随机变量X的取值是连续值时，可以采用GDA模型进行预测，

当随机变量X的取值是离散值时，可以采用朴素贝叶斯模型。

对于上述邮件的例子，是否是垃圾邮件属于二分类问题，技术分享，因此对建模为伯努利分布

在给定y的情况下，朴素贝叶斯假设每个单词的出现互相独立，每个单词是否出现也是一个二分类问题，即技术分享，因此对也建模为伯努利分布。

在GDA模型中，假设我们要处理的依然是二分类问题，对技术分享依然建模为伯努利分布。

在给定y的情况下，x的取值是连续值，所以我们对技术分享建模为高斯分布。

在上述邮件例子中存在一个问题：假设在一封邮件中出现了一个以前邮件从来没有出现的词，那么在预测该邮件是否是垃圾邮件时，

技术分享

　　　　　　技术分享

　　　　　　技术分享

存在技术分享使得和都为0

那么技术分享模型失灵。

换句话说，在有限的训练集中没有出现过的特征，不可以简单的认为该特征以后会出现的概率为0.

修正方法是采用laplace平滑。

4.laplace平滑

假设y可以取k个不同的值，技术分享，那么

技术分享

即 分子加1，分母加k，以避免在预测从未见过的新值时，分子分母都为0的情况。

在上述邮件问题中，

技术分享

　　　　　　　　　　　技术分享

同理

技术分享

第五讲完。

以上是关于（笔记）斯坦福机器学习第五讲--生成学习算法的主要内容，如果未能解决你的问题，请参考以下文章

斯坦福大学Andrew Ng - 机器学习笔记 -- 机器学习算法的选择与评估

斯坦福机器学习课程笔记

斯坦福机器学习视频笔记 Week6 关于机器学习的建议 Advice for Applying Machine Learning

机器学习公开课笔记第五周之优化机器学习算法

2.3 数据变换李沐-斯坦福21秋季：实用机器学习中文版

从零开始CS224W-图机器学习-2021冬季学习笔记13.2：Community Structure in Networks——BigCLAM算法