从零开始实现逻辑回归模型

Posted 风雪夜归子

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从零开始实现逻辑回归模型相关的知识,希望对你有一定的参考价值。

逻辑回归

声明:版权所有,转载请联系作者并注明出处:
http://blog.csdn.net/u013719780?viewmode=contents

知乎专栏:
https://www.zhihu.com/people/feng-xue-ye-gui-zi/columns

上一篇文章介绍了线性回归、岭回归、lasso回归和多项式回归模型。这些模型都是广义线性回归模型的具体形式,广义线性回归是一种灵活的框架,比普通线性回归要求更少的假设。这一章,我们讨论广义线性回归模型的具体形式的另一种形式,逻辑回归(logistic regression)。

逻辑回归模型在工业界是工程师用的非常多的模型了,比如在CTR预测等项目中被大量使用,之所以用的非常普遍,是因为逻辑回归拥有简单、解释性好、计算速度快等优点。

和前面讨论的模型不同,逻辑回归是用来做分类任务的。分类任务的目标是找一个函数,把观测值匹配到相关的类和标签上。学习算法必须用成对的特征向量和对应的标签来估计匹配函数的参数,从而实现更好的分类效果。在二元分类(binary classification)中,分类算法必须把一个实例分为两个类别。二元分类案例包括,预测患者是否患有某种疾病,音频中是否含有人声,杜克大学男子篮球队在NCAA比赛中第一场的输赢。

普通的线性回归假设响应变量呈正态分布,也称为高斯分布(Gaussian distribution )或钟形曲线(bell curve)。正态分布数据是对称的,且均值,中位数和众数(mode)是一样的。很多自然现象都服从正态分布。比如,人类的身高就服从正态分布,姚明那样的高度极少,在99%之外了。

在某些问题里,响应变量不是正态分布的。比如,掷一个硬币获取正反两面的概率分布是伯努力分布(Bernoulli distribution),又称两点分布或者0-1分布。表示一个事件发生的概率是P,不发生的概率1−P,概率在[0, 1]之间。线性回归假设自变量(解释变量)值的变化会引起因变量(响应变量)值的变化,如果响应变量的值是概率,这条假设就不满足了。广义线性回归去掉了这条假设,用一个联连函数(link function)来描述解释变量与响应变量的关系。实际上,在线性回归模型里面,我们已经用了联连函数。普通线性回归作为广义线性回归的特例使用的是恒等联连函数(identity link function),将解释变量的通过线性组合的方式来联接服从正态分布的响应变量。如果响应变量不服从正态分布,就要用另外一种联连函数了。

在逻辑回归里,响应变量描述了类似于掷一个硬币结果为正面的概率。如果响应变量等于或超过了指定的临界值,预测结果就是正面,否则预测结果就是反面。响应变量是一个像线性回归中的解释变量构成的函数表示,称为逻辑函数(logistic function)。一个值在[0, 1]之间的逻辑函数如下所示:

f(x)=11+ex

模型原理

逻辑回归是一种判别模型,与线性回归类似,它有比较强的先验假设:

  • 假设因变量服从Bernoulli distribution, 即

    p(y|x)=p(y=1|x)y(1p(y=1|x))(1y),y0,1

  • 假设训练样本服从钟形分布,例如高斯分布:

    p(xi|y=yk)N(μik,σi)

其中y是样本标注,布尔类型,取值为0或1,x是样本的特征向量。

逻辑回归是判别模型,所以我们直接学习 p(y|x) ,以高斯分布为例:

p(y=1|x)=11+exw,

p(y=0|x)=1p(y=1|x)=11+exw

则有:

p(y=1|x)=p(x|y=1)p(y=1)p(x)=p(x|y=1)p(y=1)p(x|y=1)p(y=1)+p(x|y=0)p(y=0)=11+p(x|y=0)p(y=0)p(x|y=1)p(y=1)=11+p(x|y=0)(1p(y=1))p(x|y=1)p(y=1)=11+p(x|y=0)(1π)p(x|y=1)π逻辑斯谛回归,softmax回归与最大熵模型

R语言广义线性模型函数GLMglm函数构建逻辑回归模型(Logistic regression)构建仿真数据集控制所有其它预测变量进而评估单个预测因子对结果概率的影响

广义线性建模和常规逻辑回归之间的区别

R语言广义线性模型泊松回归(Poisson Regression)模型

R语言广义线性模型函数GLM广义线性模型(Generalized linear models)glm函数构建逻辑回归模型(Logistic regression)

机器学习之逻辑回归