LR的深入理解资料汇集
Posted x739400043
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LR的深入理解资料汇集相关的知识,希望对你有一定的参考价值。
今天面试被问到LR的算法的梯度和正则化项,自己不太理解,所以找了一些相关资料,发现LR的算法在梯度下降,正则化和sigmoid函数方面都有很深的研究,期间也发现一些比较好的资料,记录一下。
这篇论文推导了LR和最大熵模型之间的关系
http://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf
这篇文章是论文的翻译和理解,帮助看论文。
https://blog.csdn.net/qq_32742009/article/details/81746955
主要结论:二项分布的最大熵就是二项指数的最大似然估计。
证明方法:假设x服务二项指数分布,求解二项分布的参数,最后x被推出服从二项指数分布,整个推导过程是一个闭环。
疑点是:是为什么要假设x服务二项指数分布呢?(备注:二项指数分布也就是逻辑斯蒂分布)
算法一般是假设正太分布,为什么直接假设是正太分布呢?
凸函数定义
https://blog.csdn.net/feilong_csdn/article/details/83476277
LR的L1正则化不可导证明:
https://blog.csdn.net/luoyexuge/article/details/79594554
坐标下降法
https://blog.csdn.net/xiaocong1990/article/details/83039802
还有一种近端梯度下降求解的方法:
https://www.zhihu.com/question/38426074/answer/76683857
以上是关于LR的深入理解资料汇集的主要内容,如果未能解决你的问题,请参考以下文章