常见优化器
Posted lilu-1226
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了常见优化器相关的知识,希望对你有一定的参考价值。
- SGD
梯度下降法根据每次更新参数时使用的样本数量分为Stochastic Gradient Descent(随机梯度下降法,SGD)、mini-batch Gradirnt Descent(小批量梯度下降法,mBGD)和Batch Gradient Descent(批量梯度下降法,BGD)三种。通常所说的SGD指的是小批量梯度下降法,这里也是。
批量梯度下降法是梯度下降法最常用的形式,也就是在更新参数时使用所有的样本;随机梯度下降法与批量梯度下降法的原理类似,不过在求取梯度时没有使用所有的样本,而是仅仅选取一个样本来求梯度;小批量梯度下降法则是批量梯度下降法和随机梯度下降法的折衷,在计算梯度时选择部分样本进行计算,即样本数介于1与总数之间。
对于小批量梯度下降法,其更新公式如下:
以上是关于常见优化器的主要内容,如果未能解决你的问题,请参考以下文章
12.2 新功能优化器统计顾问(Optimizer Statistics Advisor)及常见问题
12.2 新功能优化器统计顾问(Optimizer Statistics Advisor)及常见问题