在 ADAM 优化器的 CNTK 实现中,参数 alpha、beta1、beta2 和 epsilon 如何与学习率和动量相关
Posted
技术标签:
【中文标题】在 ADAM 优化器的 CNTK 实现中,参数 alpha、beta1、beta2 和 epsilon 如何与学习率和动量相关【英文标题】:In CNTK implementation of ADAM optimizer, how the parameters alpha, beta1, beta2 and epsilon relate to learning rate and momentum 【发布时间】:2016-12-23 18:01:13 【问题描述】:我正在使用 adam_sgd optimiser 来训练神经网络,但我无法将函数中的参数与 Adam 论文中报告的参数关联起来。更具体地说,在 Adam 的 CNTK 实现中,参数 alpha、beta1、beta2 和 epsilon 与学习率和动量有何关系?
【问题讨论】:
【参考方案1】: Alpha 是 learning_rate Beta1 是动量参数 Beta2 是variance_momentum 参数【讨论】:
以上是关于在 ADAM 优化器的 CNTK 实现中,参数 alpha、beta1、beta2 和 epsilon 如何与学习率和动量相关的主要内容,如果未能解决你的问题,请参考以下文章
Adam 优化器真的是 RMSprop 加动量吗?如果是,为啥它没有动量参数?
SDG,ADAM,LookAhead,Lion等优化器的对比介绍