遵循统一的机器学习框架理解逻辑回归

Posted 2022-12-22 spingc

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了遵循统一的机器学习框架理解逻辑回归相关的知识，希望对你有一定的参考价值。

遵循统一的机器学习框架理解逻辑回归

标签：机器学习 LR 分类

一、前言

我的博客不是科普性质的博客，仅记录我的观点和思考过程。欢迎大家指出我思考的盲点，更希望大家能有自己的理解。

本文参考了网络上诸多资料。

二、理解

统一的机器学习框架(MLA)：

1.模型(Model)
2.策略(Loss)
3.算法(Algorithm)

按照如上所说框架，LR最核心的就是损失函数使用了 Sigmoid 和 Cross Entropy 。

LR: Sigmoid + Cross Entropy

Model

题外话：参照上一篇博客：遵循统一的机器学习框架理解SVM，就会发现LR与SVM在模型和算法上是一样的，不同点就在于损失函数的不同。

给定数据集 \$(x^1,\\haty^1),(x^2,\\haty^2)...(x^n,\\haty^n)\$，其中\$\\haty^i\\in\\0,1\\\$， \$y\$ 表示预测的 \$label\$ 值，线性函数：
\\[f(x)=w^Tx+b\\]

\\[y=\\begincases 1,\\quad &f(x)>0\\0, &f(x)<0 \\endcases\\]
同时：
当 \$\\haty=1\$ 时，\$f(x)\$越大越好； $\\haty=0 $ 时，\$f(x)\$越小越好。

Loss

经验风险最小化(交叉熵损失函数)：Sigmoid + Cross Entropy。
增加Sigmoid的目的是为了把 \$f(x)\$ 的值放缩到0-1之间，用于计算交叉熵损失。

\\[ \\beginaligned &z = \\sigma(f(x))\\&p(\\haty=1|x;w,b) = z\\&p(\\haty=0|x;w,b) = 1-z \\endaligned \\]

\$z\$ 表示预测出的可能性

经验风险

1.使用 \$sigmoid + cross\\ entropy\$ 的损失函数:
\\[\\haty=\\begincases 1,\\; &f(x)>0\\; &\\sigma(f(x))\\longrightarrow 1, &Loss=-ln(z)\\0,\\; &f(x)<0\\; &\\sigma(f(x))\\longrightarrow 0, &Loss=-ln(1-z) \\endcases\\]

\\[ Loss = -[\\haty ln z+(1-\\haty)ln (1-z)] \\]

2.从最大似然的角度
假设训练样本相互独立，那么似然函数表达式为:

\\[ \\beginaligned Loss &= p(\\hatY|X;w,b) \\&= \\prod_i=1^n p(\\haty^i|x^i;w,b)\\&= \\prod_i=1^n z_i^\\haty^i (1-z_i)^1-\\haty^i\\&= \\sum_i=1^n \\haty^iln z_i + (1-\\haty^i)ln(1-z_i) \\endaligned \\]

至此，发现从交叉熵的角度和最大似然的角度，得到的损失函数竟然完全相同，说明他俩在背后存在着不为人知的本质联系。
现在开始探究这种联系。

3. 交叉熵与最大似然的联系
熵

\\[H(X) = -E_x \\sim P[log P(x)]\\]

KL散度：KL衡量两个分布之间的差异
\\[ \\beginaligned D_KL(P||Q) &=E_x \\sim P[log \\fracP(x)Q(x)]\\&=E_x \\sim P[logP(x)-logQ(x)] \\endaligned \\]

\$D_KL(P||Q)\$表示选择一个 \$Q\$，使得它在 \$P\$ 具有高概率的地方具有高概率。简单来说就是找到一组参数表示 \$Q\$ 分布，这组参数要做到：当 \$P\$ 分布中高概率的地方时，从这组参数也能取到高概率。

交叉熵
\\[ \\beginaligned H(P,Q) &=H(P)+D_KL(P||Q) \\endaligned \\]

具体到我们的场景而言：\$\\hatY\$ 分布对应着 \$P\$ 分布， \$Y\$ 分布对应着 \$Q\$ 分布。\$\\hatY\$ 分布是确定的，\$Y\$ 分布是我们所求的。换句话说就是让 \$Y\$ 分布尽量逼近 \$\\hatY\$ 分布。

在我们这个场景下，\$\\hatY\$ 是确定但未知的（先验分布）。

\\[ \\beginaligned H(\\hatY,Y) &= H(\\hatY)+D_KL(\\hatY||Y)\\&=-E_x \\sim \\hatY[log \\hatY]+E_x \\sim \\hatY[log\\hatY(x)-logY(x)]\\&=E_x \\sim \\hatY-logY(x) \\endaligned \\]

当我们最小化交叉熵时：
\\[ \\beginaligned &min\\;\\;H(\\hatY,Y)\\&min\\;\\;D_KL(\\hatY||Y)\\&min \\;\\;E_x \\sim \\hatY[log\\hatY(x)-logY(x)]\\&min \\;\\;E_x \\sim \\hatY-logY(x) \\endaligned \\]

当 \$\\hatY\$ 分布是已知，则熵是常量，此时交叉熵和KL散度则是等价的。
针对 \$Y\$ 最小化交叉熵等价于最小化KL散度，因为 \$H(\\hatY)\$ 与\$Y\$无关。

注意最后的 \$E_x \\sim \\hatY-logY(x)\$ 与熵 \$H(Y)\$ 之间的差别。熵是已经知道一个变量x的概率分布，求出来的是这个分布的事件所产生的期望信息总量；但对于这个式子，\$Y\$ 分布是未知的，是我们所要求的东西。我们只是希望\$Y\$与\$\\hatY\$之间尽可能相似或者接近，而并不需要知道他们每个的确切的分布是什么（也就是并不需要知道概率分布的表达式），所以使用KL散度直接定义他们之间的差异就行了。
说到这里想起来了上一篇介绍SVM时的核函数，其中也是要把低维空间升到高维空间，然后计算他们的内积，对于这整个过程，我们最终需要的是内积的结果。为了减少计算量同时达到最终的目的，跳过中间复杂的过程，引入了核函数,这样我们就不需要知道升维后具体是什么样子。

最小化KL散度和模型采用最大似然估计进行参数估计又是一致的，因此交叉熵与最大似然估计有一个KL散度关联在一起的。

Algorithm

梯度下降法

\$\\sigma(x)' = \\sigma(x)(1-\\sigma(x))\$
$ min;;Loss = -\\sum_i=1^n \\haty^i ln z_i + (1-\\haty^i)ln(1-z_i)$
\$z = \\sigma(f(x))\$

\\[ \\beginaligned \\frac\\partial L\\partial w &= -\\sum_i=1^n \\haty^i \\frac1z_i z_i(1-z_i) x^i+(1-\\haty^i)\\frac11-z_i (-1) z_i(1-z_i)x^i \\&= -\\sum_i=1^n \\haty^i(1-z_i) x^i-(1-\\haty^i)z_ix^i\\&= -\\sum_i=1^n (\\haty^i-z_i)x^i\\&= -\\sum_i=1^n (\\haty^i-\\sigma(w^Tx^i+b))x^i \\endaligned \\]

\\[ \\beginaligned w^k+1 &= w^k - \\eta \\frac\\partial L\\partial w \\&= w^k+\\eta\\sum_i=1^n (\\haty^i-z_i)x^i \\endaligned \\]

这里有一个很好的性质，更新的梯度与 \$\\haty^i-z_i\$ 有关，当他们之间的差距越大时，更新的梯度越大。

三、扩展

上面所说的模型中\$\\haty^i\\in\\0,1\\\$，换一种写法：\$\\haty^i\\in\\1,-1\\\$，还是用sigmoid+交叉熵的方式来写损失函数。
此时：
\\[\\haty=\\begincases 1,\\; &f(x)>0\\; &\\sigma(f(x))\\longrightarrow 1, &Loss=-ln(z)\\-1,\\; &f(x)<0\\; &\\sigma(f(x))\\longrightarrow 0, &Loss=-ln(1-z)=-ln(-z) \\endcases\\]

上式的变换参考上一篇遵循统一的机器学习框架理解SVM

综合得来：
\\[ \\beginaligned Loss &= -\\sum_i=1^n ln(\\sigma(\\haty^if(x^i)))\\\\&= - \\sum_i=1^n ln \\frac11+exp(-\\haty^if(x^i))\\\\&=\\sum_i=1^n ln(1+exp(-\\haty^if(x^i))) \\endaligned \\]

\\[ \\beginaligned \\frac\\partial L\\partial w &= -\\sum_i=1^n \\frac1\\sigma(\\haty^if(x^i))\\sigma(\\haty^if(x^i))(1-\\sigma(\\haty^if(x^i)))\\haty^ix^i\\&=-\\sum_i=1^n (\\haty^i-\\haty^i\\sigma(\\haty^if(x^i)))x^i \\endaligned \\]

\$\\haty^i=1\$时，\\[\\frac\\partial L\\partial w=-\\sum_i=1^n (1-\\sigma(f(x^i)))x^i\\]

\$\\haty^i=-1\$时，\\[\\frac\\partial L\\partial w=-\\sum_i=1^n (-1+\\sigma(-f(x^i)))x^i=-\\sum_i=1^n (-1+1-\\sigma(f(x^i)))x^i=-\\sum_i=1^n -\\sigma(f(x^i))x^i\\]

到此可以看出与\$\\haty^i\\in\\1,0\\\$ 时完全相同。

以上是关于遵循统一的机器学习框架理解逻辑回归的主要内容，如果未能解决你的问题，请参考以下文章

遵循统一的机器学习框架理解逻辑回归

遵循统一的机器学习框架理解逻辑回归

标签： 机器学习 LR 分类

一、前言

二、理解

Model

Loss

经验风险

Algorithm

三、扩展

标签：机器学习 LR 分类