1.梯度下降法的三种形式Batch Gradient Desecnt、Stochastic Gradient Desecnt、Min-Batch Gradient Desecnt及其总结
详见:Poll的笔记 写的非常清楚,看一看就能明白
2.关于梯度下降的优化算法
英文版见:Sebastian Ruder博士写的《An overview of gradient descent optimization algorithms》
3. 关于SGD+momentum中两种形式的理解,其实是一回事
详见:SGD+momentum中两种形式的理解