机器学习Logistic Regression 的前世今生（理论篇）

Posted 2020-10-03 mfmdaoyou

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习Logistic Regression 的前世今生（理论篇）相关的知识，希望对你有一定的参考价值。

Logistic Regression 的前世今生（理论篇）

本博客仅为作者记录笔记之用，不免有非常多细节不正确之处。

还望各位看官能够见谅，欢迎批评指正。

博客虽水，然亦博主之苦劳也。

如需转载，请附上本文链接，不甚感激！
http://blog.csdn.net/cyh_24/article/details/50359055

写这篇博客的动力是源于看到了以下这篇微博：

技术分享

我在看到这篇微博的时候大为触动，由于，如果是rickjin来面试我。我想我会死的非常慘，由于他问的问题我基本都回答不上来。

所以，痛定思痛，我决定今后对一些算法的理解不能仅仅是停留在表面。而应该至少往前推一步，尝试看得更远一些。
对于学习机器学习的人来说，Logistic Regression能够说是一个入门的算法，算法本身不复杂，只是也正是由于这个原因。非常多人往往忽略了这个算法的一些内在精髓。

这篇博客里。我打算就rickjin问的一些问题，进行总结：

1. LR原理
2. LR的求解数学推导
3. LR的正则化
4. 为什么LR能比线性回归好？
5. LR与MaxEnt的关系
6. 并行化的LR

逻辑回归模型

尽管逻辑回归姓回归，只是事实上它的真实身份是二分类器。介绍完了姓。我们来介绍一下它的名字，逻辑斯蒂。这个名字来源于逻辑斯蒂分布：

逻辑斯蒂分布

设X是连续随机变量，X服从逻辑斯蒂分布是指X具有下列的分布函数和密度函数：

F (x) = P (X \leq x) = 1 1 + e ? ( x ? μ ) / γ

$F(x) = P(X \leq x)=\dfrac{1}{1+e^{-(x-\mu)/\gamma}}$

f (x) = F' (X \leq x) = e ? ( x ? μ ) / γ γ ( 1 + e ? ( x ? μ ) / γ ) 2

$f(x) = F^\prime(X \leq x)=\dfrac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$ 上式中。

μ $\mu$ 表示位置參数。

γ>0 $\gamma>0$ 为形状參数。

有没有发现 $F(x)$ 是啥？有图你就知道真相了：

技术分享

有没有发现右边非常熟悉？没错。就是sigmoid 曲线。仅仅只是，这个曲线是以点( $\mu$ , $\dfrac{1}{2}$ ) 为中心对称。

从图中能够看出。曲线在中心附近增长速度较快，而形状參数 $\gamma$ 值越小。曲线在中心附近增长越快，请自行脑补一下。

二项逻辑回归模型

之前说到，逻辑回归是一种二分类模型，由条件概率分布 $P(Y|X)$ 表示，形式就是參数化的逻辑斯蒂分布。

这里的自变量 $X$ 取值为实数。而因变量 $Y$ 为0或者1。二项LR的条件概率例如以下：

P (Y = 1 | x) = = e w ? x 1 + e w ? x

$P(Y=1|x) = =\dfrac{e^{w \cdot x}}{1+e^{w \cdot x}}$

P (Y = 0 | x) = = 1 1 + e w ? x

$P(Y=0|x) = =\dfrac{1}{1+e^{w \cdot x}}$ 一个事件的几率（odds）：指该事件发生与不发生的概率比值，若事件发生概率为

p $p$ 。那么事件发生的几率就是

o d d s = p 1 ? p

$odds=\dfrac{p}{1-p}$ 那么该事件的对数几率（log odds或者logit）就是：

l o g i t (p) = l o g p 1 ? p

$logit(p)=log\dfrac{p}{1-p}$ 那么，对逻辑回归而言，

Y=1 $Y=1$ 的对数几率就是：

l o g P ( Y = 1 | x ) 1 ? P ( Y = 1 | x ) = w ? x

$log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w \cdot x$

也就是说，输出 $Y=1$ 的对数几率是由输入 $x$ 的线性函数表示的模型。这就是 逻辑回归模型。当 $w \cdot x$ 的值越接近正无穷， $P(Y=1|x)$ 概率值也就越接近1.

模型的数学形式确定后，剩下就是怎样去求解模型中的參数。在统计学中。常用极大似然预计法来求解，即找到一组參数。使得在这组參数下，我们的数据的似然度（概率）最大。

设：

P (Y = 1 | x) = π (x), P (Y = 0 | x) = 1 ? π (x)

$P(Y=1|x) = \pi(x), P(Y=0|x) = 1- \pi(x)$

似然函数：

L (w) = \prod [π (x i)] y i [1 ? π (x i)] 1 ? y i

$L(w)=\prod[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$

对数似然函数:

l n L (w) = \sum [y i l n π (x i) + (1 ? y i) l n (1 ? π (x i))]

$lnL(w)=\sum[y_iln\pi(x_i)+(1-y_i)ln(1-\pi(x_i))]$

= \sum [y i l n π ( x i ) 1 ? π ( x i ) + l n (1 ? π (x i))]

$=\sum[y_iln\frac{\pi(x_i)}{1-\pi(x_i)}+ln(1-\pi(x_i))]$

= \sum [y i (w ? x i) ? l n (1 + e w ? x i)]

$=\sum[y_i(w \cdot x_i) - ln(1+e^{w \cdot x_i})]$

如今要求 $w$ 使得 $L(w)$ 最大。有的人可能会有疑问：

在机器学习领域，我们更常常遇到的是损失函数的概念。其衡量的是模型预測错误的程度。常用的损失函数有0-1损失，log损失，hinge损失等。
一般是最小化损失函数，这里为啥求极大似然预计？

实际上。对数似然损失在单个数据点上的定义为：

? y l n p (y | x) ? (1 ? y) l n [1 ? p (y | x)] = ? [y i l n π (x i) + (1 ? y i) l n (1 ? π (x i))]

$?ylnp(y|x)?(1?y)ln[1?p(y|x)]=-[y_iln\pi(x_i)+(1-y_i)ln(1-\pi(x_i))]$

如果取整个数据集上的平均对数似然损失，我们恰好能够得到:

J (w) = ? 1 N l n L (w)

$J(w)=-\frac{1}{N}lnL(w)$

即在逻辑回归模型中，我们最大化似然函数和最小化对数似然损失函数实际上是等价的。

接下来就是对 $L(w)$ 求极大值(也可觉得是求 $J(w)$ 的最小值)。得到 $w$ 的预计值。逻辑回归学习中通常採用的方法是梯度下降法 和 牛顿法。

[先跑个题]，讲到求极值的方法，突然想到有几个可视化的gif图。能够非常直观地体现各种算法的优劣。好东西当然要分享了。

Imgur 网友通过可视化方法，对照了SGD, momentum, Nesterov, AdaGrad, AdaDelta,
RMSProp等优化算法在Long Valley, Beale’s Function及Saddle Point情况下的性质。

Long Valley:
技术分享

Beale’s Function:

技术分享

Saddle Point:

技术分享

以后会专门写一篇来讲求极值的方法。这是题外话了。我们还是继续回归逻辑吧，哈哈。

以下介绍使用梯度下降法来求解逻辑回归问题。

使用梯度下降法(Gradient Descent)求解逻辑回归

算法（梯度下降法求解逻辑回归）
输入：目标函数： $J(w)$ (对数似然损失函数)，梯度函数： $g(w)=\nabla J(w)$ 。计算精度 $\epsilon$
输出： $J(w)$ 的极小值点 $w^*$
过程：
(1) 取初始值 $w_0\in \bf R^n$ ，令 $k=0$
(2) 计算 $J(w_k)$

J (w k) = ? 1 N l n L (w k) ? ? l n L (w k)

$J(w_k)=-\frac{1}{N}lnL(w_k)\Rightarrow -lnL(w_k)$

= \sum [y i (w k ? x i) ? l n (1 + e w k ? x i)]

$=\sum[y_i(w_k \cdot x_i) - ln(1+e^{w_k \cdot x_i})]$

(3) 计算梯度 $g_k=g(w_k)=\nabla J(w)$

g (w k) = \sum [x i ? y i ? x i ? e w k ? x i 1 + e w k ? x i]

$g(w_k)=\sum [x_i \cdot y_i- \frac{x_i\cdot e^{w_k \cdot x_i}}{1+e^{w_k \cdot x_i}}]$

= \sum [x i ? y i ? π (x i)]

$=\sum [x_i \cdot y_i- \pi(x_i) ]$

若 $||g_k||<\epsilon$ 。停止迭代，令

w ? = w k

$w^*=w_k$

否则，令 $p_k=-g(w_k)$ 。求 $\lambda_k$ ，使得

J (w k + λ k p k) = m i n (J (w k + λ p k))

$J(w_k+\lambda_kp_k)=min(J(w_k+\lambda p_k))$

(4) 令 $w_{k+1}=w_k+\lambda_kp_k$ 。计算 $J(w_{k+1})$
当 $||J(w_{k+1})-J(w_k)||<\epsilon$ 或 $||w_{k+1}-w_k||<\epsilon$ ，停止迭代，令

w ? = w k + 1

$w^*=w_{k+1}$

(5) 否则，令 $k=k+1$ ，转(3).

逻辑回归的正则化

当模型的參数过多时。非常easy遇到过拟合的问题。而正则化是结构风险最小化的一种实现方式，通过在经验风险上加一个正则化项，来惩处过大的參数来防止过拟合。

正则化是符合奥卡姆剃刀(Occam’s razor)原理的：在全部可能选择的模型中。能够非常好地解释已知数据而且十分简单的才是最好的模型。

我们来看一下underfitting，fitting跟overfitting的情况：

技术分享

显然，最右这张图overfitting了，原因可能是能影响结果的參数太多了。

典型的做法在优化目标中增加正则项，通过惩处过大的參数来防止过拟合：

J (w) = > J (w) + λ | | w | | p

$J(w)=>J(w)+\lambda||w||_p$

p=1或者2。表示 $L_1$ 范数和 $L_2$ 范数。这两者还是有不同效果的。

$L_1$ 范数：是指向量中各个元素绝对值之和。也有个美称叫“稀疏规则算子”（Lasso regularization）。
那么。參数稀疏 有什么优点呢？

一个关键原因在于它能实现 特征的自己主动选择。

一般来说，大部分特征 $x_i$ 和输出 $y_i$ 之间并没有多大关系。

在最小化目标函数的时候考虑到这些额外的特征 $x_i$ ，尽管能够获得更小的训练误差，但在预測新的样本时。这些无用的信息反而会干扰了对正确 $y_i$ 的预測。稀疏规则化算子的引入就是为了完毕特征自己主动选择的光荣使命，它会学习地去掉这些没有信息的特征，也就是把这些特征相应的权重置为0。

$L_2$ 范数：它有两个美称。在回归里面，有人把有它的回归叫“岭回归”（Ridge Regression），有人也叫它“权值衰减”(weight decay)。

它的强大之处就是它能 解决过拟合 问题。我们让 $L2$ 范数的规则项 $||w||_2$ 最小。能够使得 $w$ 的每一个元素都非常小。都接近于0，但与 $L1$ 范数不同，它不会让它等于0，而是接近于0。这里还是有非常大差别的。而越小的參数说明模型越简单。越简单的模型则越不easy产生过拟合现象。

咦，你为啥说越小的參数表示的模型越简单呢？事实上我也不知道，我也是猜，可能是由于參数小。对结果的影响就小了吧。

为了更直观看出两者的差别，我再放一张图：

技术分享

为了简单，上图仅仅考虑了 $w$ 为二维 $(w^1, w^2)$ 的情况。彩色等高线是 $(w^1, w^2)$ ；而左边黑色矩形 $||w||_1<C$ 和右边的圆形 $||w||_2<C$ 是约束条件。相交的黑点就是最优解发生的地方。两者的差别能够从图中看出来， $L_1$ 正则化（左图）倾向于使參数变为0，因此能产生稀疏解。而 $L_2$ 使 $w$ 接近0；

一句话总结就是： $L_1$ 会趋向于产生少量的特征，而其它的特征都是0，而 $L_2$ 会选择很多其它的特征。这些特征都会接近于0。

为什么逻辑回归比线性回归要好？

尽管逻辑回归能够用于分类。只是其本质还是线性回归。它仅在线性回归的基础上，在特征到结果的映射中增加了一层sigmoid函数（非线性）映射，即先把特征线性求和。然后使用sigmoid函数来预測。

然而，正是这个简单的逻辑函数，使得逻辑回归模型成为了机器学习领域一颗耀眼的明星。

技术分享

以下我们来谈谈逻辑回归与线性回归的异同点吧。

如果随Tumor Size变化。预測病人的肿瘤是恶性（malignant）还是良性（benign）的情况。给出8个数据例如以下（阈值为0.5）：

![此处输入图片的描写叙述][10]

图1.a中，粉色线是预測模型，能够看出，模型能够全然把结果预測对了，可是图1.b中蓝色线却预測的非常差。

这主要是由于线性回归在整个实数域内敏感度一致，而分类范围。须要在[0,1]之内。而逻辑回归就是一种减小预測范围，将预測值限定为[0,1]间的一种回归模型，其回归方程与回归曲线例如以下图所看到的。逻辑曲线在z=0时，十分敏感，在z>>0或z<<0处，都不敏感，将预測值限定为(0,1)。

逻辑回归与最大熵模型MaxEnt的关系?

逻辑回归跟最大熵模型究竟有啥差别呢？

简单粗暴 的回答是：逻辑回归跟最大熵模型没有本质差别。逻辑回归是最大熵相应类别为二类时的特殊情况。也就是当逻辑回归类别扩展到多类别时。就是最大熵模型。

以下来具体地介绍一下：

在进行以下推导之前，先上几个数学符号定义:

$\pi(x)_u$ 表示，输入时 $x$ , 输出的 $y=u$ 的概率;

$A(u,v)$ 是一个指示函数，若 $u=v$ 。则 $A(u,v)=1$ 。否则 $A(u,v)=0$

我们的目标，就是从训练数据中，学习得到一个模型。使得 $\pi(x)_u$ 最大化，也就是输入 $x$ ，预測结果是 $y$ 的概率最大，也就是使得 $\pi(x)_{y}$ 最大。

回想逻辑回归

标准的逻辑回归是二类模型，有：

P (Y = 1 | x) = π (x) 1 = e w ? x 1 + e w ? x

$P(Y=1|x) = \pi(x)_1 =\dfrac{e^{w \cdot x}}{1+e^{w \cdot x}}$

P (Y = 0 | x) = π (x) 0 = 1 ? π (x) 1

$P(Y=0|x) = \pi(x)_0 = 1-\pi(x)_1$

我们用一个更加泛化的形式来表达 $\pi()$ ，(仅仅是在这里，k=2)：

π (x) v = e w v ? x \sum k u = 1 e w u ? x

$\pi(x)_v=\dfrac{e^{w_v \cdot x}}{\sum_{u=1}^k e^{w_u \cdot x}}$

回到我们的目标：令 $\pi(x_i)_{y_i}$ 最大。能够用极大似然预计的方法来求解。

L (w) = \prod i = 1 n π (x i) y i

$L(w)=\prod_{i=1}^n \pi(x_i)y_i$

l n L (w) = \sum i = 1 n l n (π (x i) y i)

$lnL(w)=\sum_{i=1}^n ln(\pi(x_i)y_i)$

对 $lnL(w)$ 求偏导，得到：

δ δ w u , j l n L (w) = . . . = \sum i = 1, y i = u n x i j ? \sum i = 1 n x i j π (x i) u

$\frac{\delta}{\delta w_{u,j}}lnL(w)=...=\sum_{i=1,\;y_i=u}^nx_{ij}-\sum_{i=1}^nx_{ij}\pi(x_i)_u$

令偏导等于0，能够得到：

\sum i = 1 n x i j π (x i) u = \sum i = 1, y i = u n x i j, (f o r a l l u, j)

$\sum_{i=1}^nx_{ij}\pi(x_i)_u=\sum_{i=1,\;y_i=u}^nx_{ij}, (for\;all\; u,j)$

使用 $A(u,y_i)$ 这个函数，我们能够重写等式：

\sum i = 1 n x i j π (x i) u = \sum i = 1 n A (u, y i) x i j, (f o r a l l u, j)

$\sum_{i=1}^nx_{ij}\pi(x_i)_u=\sum_{i=1}^n A(u,y_i)x_{ij}, (for\;all\; u,j)$

回想最大熵模型

想要证明逻辑回归跟最大熵模型是等价的，那么。仅仅要能够证明它们的 $\pi()$ 是同样。结论自然就出来了。如今，我们不知道最大熵模型的 $\pi()$ ，可是我们知道以下的一些性质：

π (x) v \geq 0 a l w a y s

$\pi(x)_v\geq0 \quad always$

\sum v = 1 k π (x) v = 1 a l w a y s

$\sum_{v=1}^k\pi(x)_v = 1 \quad always$

\sum i = 1 n x i j π (x i) u = \sum i = 1 n A (u, y i) x i j, (f o r a l l u, j)

$\sum_{i=1}^nx_{ij}\pi(x_i)_u=\sum_{i=1}^n A(u,y_i)x_{ij}, (for\;all\; u,j)$

利用信息论的仅仅是，我们能够得到 $\pi()$ 的熵。定义例如以下：

? \sum v = 1 k \sum i = 1 n π (x i) v l o g [π (x i) v]

$-\sum_{v=1}^k\sum_{i=1}^n\pi(x_i)_vlog[\pi(x_i)_v]$

如今，我们有了目标： $\sum\pi()$ 最大，也有了上面的4个约束条件。求解约束最优化问题，能够通过拉格朗日乘子，将约束最优化问题转换为无约束最优化的对偶问题。

我们的拉格朗日式子能够写成例如以下：

L = \sum j = 1 m \sum v = 1 k w v, j (\sum i = 1 n π (x i) v x i j ? A (v, y i) x i j)

$L=\sum_{j=1}^m\sum_{v=1}^kw_{v,j}(\sum_{i=1}^n\pi(x_i)_vx_{ij}-A(v,y_i)x_{ij})$

+ \sum v = 1 k \sum i = 1 n β i (π (x i) v ? 1)

$+\sum_{v=1}^k\sum_{i=1}^n\beta_i(\pi(x_i)_v-1)$

? \sum v = 1 k \sum i = 1 n π (x i) v l o g [π (x i) v]

$-\sum_{v=1}^k\sum_{i=1}^n \pi(x_i)_vlog[\pi(x_i)_v]$

对 $L$ 求偏导。得到：

δ δ π ( x i ) u L = w u ? x i + β i ? l o g [π (x i) u] ? 1

$\frac{\delta}{\delta \pi(x_i)_u}L=w_u \cdot x_i+\beta_i-log[\pi(x_i)_u]-1$

令偏导=0，得到： $w_u \cdot x_i+\beta_i-log[\pi(x_i)_u]-1=0$ ，从而得到：

π (x i) u = e w u ? x i + β i ? 1

$\pi(x_i)_u=e^{w_u \cdot x_i+\beta_i-1}$

由于有约束条件: $\sum_{v=1}^k \pi(x)_v = 1$ ，所以，

\sum v = 1 k e w v ? x i + β i ? 1 = 1

$\sum_{v=1}^ke^{w_v \cdot x_i+\beta_i-1}=1$

因此。能够得到

e β = 1 / \sum v = 1 k e w v ? x i ? 1

$e^\beta=1/\sum_{v=1}^ke^{w_v \cdot x_i-1}$

把 $e^\beta$ 代入 $\pi()$ ，而且简化一下式子：

π (x) u = e w u ? x \sum k v = 1 e w v ? x

$\pi(x)_u=\frac{e^{w_u\cdot x}}{\sum_{v=1}^k e^{w_v \cdot x}}$

有没有发现这就是逻辑回归中。提到的那个泛化的式子，这就证明了逻辑回归是最大熵模型的一个特殊样例（k=2）！

到此，逻辑回归与最大熵模型的关系就解释完毕了，总结一下：

逻辑回归跟最大熵模型没有本质差别。逻辑回归是最大熵相应类别为二类时的特殊情况

指数簇分布的最大熵等价于其指数形式的最大似然。

二项式分布的最大熵解等价于二项式指数形式(sigmoid)的最大似然；
多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然。

如果分布求解最大熵，引入拉格朗日函数，求偏导数等于0。直接求出的就是sigmoid函数形式。还有非常多指数簇分布都有相应的最大似然解。而单个指数簇分布往往表达能力有限，这就须要引入了多个指数簇分布的混合模型，比方高斯混合，从而引出EM算法。

Logistic Regression的理论部分讲的差点儿相同了。下一篇文章将介绍Logistic Regression的并行化 project问题。
敬请期待…

Please feel free to contact me if you have any questions.

參考文献

[1]. 李航，《统计学习方法》 
[2]. John Mount. *"The equivalence of logistic regression and maximum entropy models"*
[3]. http://tech.meituan.com/intro_to_logistic_regression.html
[4]. http://blog.csdn.net/zouxy09/article/details/24971995
[5]. http://www.tuicool.com/articles/auQFju

以上是关于机器学习Logistic Regression 的前世今生（理论篇）的主要内容，如果未能解决你的问题，请参考以下文章