logistic回归算法的损失函数:binary_crossentropy(二元交叉熵)
Posted sunrise-keephungary
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了logistic回归算法的损失函数:binary_crossentropy(二元交叉熵)相关的知识,希望对你有一定的参考价值。
假设函数:
更为一般的表达式:
![技术分享图片](https://image.cha138.com/20210717/f7f384334418434faafb07356d1df203.jpg)
似然函数:
![技术分享图片](https://image.cha138.com/20210717/1b1dfe2b4b4f49b2bb2f30996a203cf3.jpg)
对数似然函数:
如果以上式作为目标函数,就需要最大化对数似然函数,我们这里选择最小化负的对数似然函数
![技术分享图片](https://image.cha138.com/20210717/26a2c5778b5b4b3dafb0d6379d933ebc.jpg)
对J(w)求极小值,对
求导
![技术分享图片](https://image.cha138.com/20210717/2bc744544ec049a3ac09518ba7a5e355.jpg)
![技术分享图片](https://image.cha138.com/20210717/6a4219b6992f40f1b7f1e1c0eee4872b.jpg)
上述中
表示第i个样本的第j个属性的取值。
![技术分享图片](https://image.cha138.com/20210717/3e37814ba0444c9fb5e3c67375110a15.jpg)
于是
的更新方式为:
![技术分享图片](https://image.cha138.com/20210717/0a6c13b7d08b4e98a6c8d2d4a4e96caa.jpg)
![技术分享图片](https://image.cha138.com/20210717/7f22214e2e024d82a6e2806c56ee02d3.jpg)
将(5)式带入(4)式,得:
梯度下降GD
的更新方式,使用全部样本:
![技术分享图片](https://image.cha138.com/20210717/944888d0703c40b99dbb24060e7e40f9.jpg)
当样本不多的时候,可以选择这个方法
随机梯度下降:
每次只取一个样本,则![技术分享图片](https://image.cha138.com/20210717/f89166b06b1d4f4798928a7cdf41504e.jpg)
的更新方式:
![技术分享图片](https://image.cha138.com/20210717/f89166b06b1d4f4798928a7cdf41504e.jpg)
![技术分享图片](https://image.cha138.com/20210717/d481dfafe7aa4e47be39c502a97a09ef.jpg)
![技术分享图片](https://image.cha138.com/20210717/38270cbbbdc54afd88920df625e00655.jpg)
![技术分享图片](https://image.cha138.com/20210717/62c7502fd4f1475d8f052f29e839dc37.jpg)
![技术分享图片](https://image.cha138.com/20210717/17e7378092d240ba97fda90dbb72383b.jpg)
随机平均梯度下降法(sag,Stochasitc Average Gradient ):
该算法是选取一小部分样本梯度的平均值来更新权重(其中n<m,m为样本数)
![技术分享图片](https://image.cha138.com/20210717/46db7cb61b8f4f5a8cc81a0b7d0627a8.jpg)
SGD和GD算法的折中
小结:
在尝试写一些机器学习相关的笔记,先写下一篇,欢迎讨论~
以上是关于logistic回归算法的损失函数:binary_crossentropy(二元交叉熵)的主要内容,如果未能解决你的问题,请参考以下文章
吴恩达深度学习:2.1Logistic Regression逻辑回归及其损失函数