深度学习三十问！一位算法工程师经历30+场CV面试后总结的常见问题合集（含答案）...

Posted 2021-06-30 机器学习算法与Python学习-公众号

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了深度学习三十问！一位算法工程师经历30+场CV面试后总结的常见问题合集（含答案）...相关的知识，希望对你有一定的参考价值。

点击 机器学习算法与Python学习 ，选择加星标

精彩内容不迷路

来源丨极市平台

作者灯会为21届中部985研究生，凭借自己整理的面经，去年在腾讯优图暑期实习，七月份将入职百度cv算法工程师。在去年灰飞烟灭的算法求职季中，经过30+场不同公司以及不同部门的面试中积累出了CV总复习系列，此为深度学习上篇。

优化算法

深度学习优化学习方法（一阶、二阶）

一阶方法：随机梯度下降（SGD）、动量（Momentum）、牛顿动量法（Nesterov动量）、AdaGrad（自适应梯度）、RMSProp（均方差传播）、Adam、Nadam。

二阶方法：牛顿法、拟牛顿法、共轭梯度法（CG）、BFGS、L-BFGS。

自适应优化算法有哪些？（Adagrad（累积梯度平方）、RMSProp（累积梯度平方的滑动平均）、Adam（带动量的RMSProp，即同时使用梯度的一、二阶矩））。

梯度下降陷入局部最优有什么解决办法？ 可以用BGD、SGD、MBGD、momentum，RMSprop，Adam等方法来避免陷入局部最优。

1.梯度下降法原理

梯度下降法又称最速下降法，是求解无约束最优化问题的一种最常用的方法，在对损失函数最小化时经常使用。梯度下降法是一种迭代算法。选取适当的初值x(0)，不断迭代，更新x的值，进行目标函数的极小化，直到收敛。由于负梯度方向时使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新x的值，从而达到减少函数值的目的。

我们首先确定损失函数：

其中，J(θ)是损失函数，m代表每次取多少样本进行训练，如果采用SGD进行训练，那每次随机取一组样本，m=1；如果是批处理，则m等于每次抽取作为训练样本的数量。θ是参数，对应（1式）的θ1和θ2。求出了θ1和θ2，h(x)的表达式就出来了：

我们的目标是让损失函数J(θ)的值最小，根据梯度下降法，首先要用J(θ)对θ求偏导：

由于是要最小化损失函数，所以参数θ按其负梯度方向来更新：