（笔记）斯坦福机器学习第四讲--牛顿法

Posted 2020-09-21

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了（笔记）斯坦福机器学习第四讲--牛顿法相关的知识，希望对你有一定的参考价值。

本讲内容

1. Newton‘s method（牛顿法）

2. Exponential Family（指数簇）

3. Generalized Linear Models(GLMs)（广义线性模型）

1.牛顿法

技术分享

假如有函数技术分享 , 寻找使得

牛顿法的步骤如下：

(1) initialize 技术分享 as some value. 上图中用初始化的值

(2) 在这一点上对f求值得到技术分享，之后计算这一点的导数值

(3) 作该点的切线，得到与横轴的交点的值技术分享，此为牛顿法的一次迭代。

更新公式为

技术分享

技术分享

我们可以使用牛顿法取代梯度上升法作极大似然估计

对对数似然函数技术分享， want s.t.

对于一次迭代，技术分享

通常来说，牛顿法对函数f有一定的要求（具体没说），牛顿法对logistic函数效果很好。

技术分享的初始值并不会对牛顿法收敛的结果产生影响。

牛顿法的收敛属于二次收敛（每一次迭代都会使误差的数量级乘方），正常情况下速度会比二次收敛慢，但是依然比梯度下降法快。

牛顿法的一般化：

技术分享

H is the Hessian matrix（黑塞矩阵）技术分享

牛顿法的缺点是，当特征数量过大的时候，求黑塞矩阵的逆会耗费相当长的时间。

2.指数簇

指数簇的一般形式

技术分享

技术分享 -自然参数(natural parameter)

技术分享 - 充分统计量(sufficient statistic) 通常情况下（伯努利分布或者高斯分布）:

固定a,b,T，改变技术分享的值，会得到一组不同的概率分布。

伯努利分布和高斯分布都是指数分布簇的特例

对于伯努利分布

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

　技术分享

对于高斯分布

考虑到方差对最终结果没有影响，在这里设置技术分享

技术分享

　　　　技术分享

技术分享

技术分享

技术分享

技术分享

指数分布族还包括很多其他的分布：
多项式分布（multinomial）
泊松分布（poisson）：用于计数的建模
伽马分布（gamma），指数分布（exponential）:用于对连续非负的随机变量进行建模
β分布，Dirichlet分布：对小数建模

3.广义线性模型(GLMS)

为了导出广义线性模型，首先制定三个假设：

(1) 技术分享

(2) Given 技术分享 , goal is to output

　 want 技术分享

(3) 技术分享即自然参数与特征向量之间是线性相关的

对于伯努利分布

技术分享

在上节的指数簇中推导出技术分享

而根据假设(3) 技术分享

技术分享

我们的目标是输出技术分享

由上节知技术分享

技术分享

技术分享

而技术分享

技术分享

　　　　技术分享

　　　　技术分享

该函数即为logistic 函数

对于高斯分布

在最小二乘估计中，我们假设响应变量是连续的，且服从高斯分布技术分享

我们的目标是输出技术分享

由上节知技术分享

技术分享

　　　　技术分享

　　　　技术分享

技术分享

顺带一提

正则响应函数（canonical response function）：技术分享
正则链接函数（canonical link function）:

4.Softmax回归（多类分类问题）

多项式分布技术分享

技术分享

技术分享

这k个参数是冗余的，所以我们定义技术分享

在后面的过程中，我们将不使用技术分享这个参数

多项式分布属于指数分布簇，但是技术分享

在这里按照如下定义技术分享

技术分享 ...

都是k-1维的向量

引入指示函数技术分享 ,

用技术分享表示向量的第个元素，则

技术分享

技术分享

技术分享

where 技术分享

技术分享

技术分享

反过来，

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

为了减少参数冗余，定义

技术分享

技术分享

由GLMS的假设3: 技术分享

技术分享

所以我们可以得到需要的假设技术分享

技术分享

技术分享

技术分享

这种方法是logistic回归的推广，应用于多分类问题。

优化目标依然是极大似然估计

技术分享

技术分享

其中

技术分享

使用梯度上升法或者牛顿法解得最优参数技术分享

第四讲完。

　　

以上是关于（笔记）斯坦福机器学习第四讲--牛顿法的主要内容，如果未能解决你的问题，请参考以下文章

机器学习笔记：牛顿方法

机器学习｜逻辑回归｜吴恩达学习笔记 | 牛顿法

机器学习中梯度下降法和牛顿法的比较

机器学习——牛顿法，指数分布簇，广义的线性模型

最优化方法与机器学习工具集

最优化方法与机器学习工具集