常见优化器

Posted lilu-1226

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了常见优化器相关的知识,希望对你有一定的参考价值。

  1. SGD
         梯度下降法根据每次更新参数时使用的样本数量分为Stochastic Gradient Descent(随机梯度下降法,SGD)、mini-batch Gradirnt Descent(小批量梯度下降法,mBGD)和Batch Gradient Descent(批量梯度下降法,BGD)三种。通常所说的SGD指的是小批量梯度下降法,这里也是。
         批量梯度下降法是梯度下降法最常用的形式,也就是在更新参数时使用所有的样本;随机梯度下降法与批量梯度下降法的原理类似,不过在求取梯度时没有使用所有的样本,而是仅仅选取一个样本来求梯度;小批量梯度下降法则是批量梯度下降法和随机梯度下降法的折衷,在计算梯度时选择部分样本进行计算,即样本数介于1与总数之间。
         对于小批量梯度下降法,其更新公式如下:
    技术图片













以上是关于常见优化器的主要内容,如果未能解决你的问题,请参考以下文章

12.2 新功能优化器统计顾问(Optimizer Statistics Advisor)及常见问题

模型训练常见问题及Aadm优化器调参记录

12.2 新功能优化器统计顾问(Optimizer Statistics Advisor)及常见问题

[人工智能-深度学习-15]:神经网络基础 - 常见优化器Optimizer及其算法 - 梯度下降法系列

优化器

优化器(Optimizer)详解