面试题：说下局部最优和全局最优的区别

Posted 2022-12-11 耗子来啦

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了面试题：说下局部最优和全局最优的区别相关的知识，希望对你有一定的参考价值。

更多面试题关注"机器学习算法面试"有劳动下手指啦

问题背景

在优化的世界里，总避免不了的接触全局最优和局部最优的概念，那么这两者的区别是什么呢？

问题解答

全局最优：针对一定条件/环境下的一个问题/目标，若一项决策和所有解决该问题的决策相比较是最优的，就可以被称为“全局最优”；

局部最优：针对一定条件/环境下的一个问题/目标，若一项决策和部分解决该问题的决策相比较是最优的，就可以被称为“局部最优”

既然有全局最优，为什么还需要有局部最优呢？

事实是这样子的，对于优化问题，尤其是最优化问题，总是希望能找到全局最优的解决策略，但是当问题的复杂度过于高，要考虑的因素和处理的信息量过多的时候，我们往往会倾向于接受局部最优解，因为局部最优解的质量不一定最差的。尤其是当我们有确定的评判标准标明得出的解释可以接受的话，通常会接受局部最优的结果。这样，从成本、效率等多方面考虑，才是实际工程中会才去的策略。

说白了，就是没那么多时间和精力去算出全局最优的结果来，用一个差不多的结果就可以啦，最起码工程上是这么搞的。

参考

[1] https://www.jianshu.com/p/10f58aa6ada1
[2] https://zhuanlan.zhihu.com/p/295436104

喜欢就关注一下啦~~~

基础概念
逻辑回归与朴素贝叶斯有什么区别
机器学习学习方式主要有哪些？
监督学习的步骤主要有哪些?
逻辑回归与朴素贝叶斯有什么区别
线性回归和逻辑回归的区别
代价函数，损失函数和目标函数的区别？
随机梯度下降法、批量梯度下降法有哪些区别？
LDA和PCA区别？
降维的必要性和目的是什么？
误差、偏差和方差的区别是啥？
梯度下降法缺点
批量梯度下降和随机梯度下降法的缺点？
如何对梯度下降法进行调优?
如何解决欠拟合
过拟合原因
如何解决过拟合
GBM
简单介绍一下XGBoost
XGBoost与GBDT的联系和区别有哪些？
为什么XGBoost泰勒二阶展开后效果就比较好呢？
XGBoost对缺失值是怎么处理的？
XGBoost为什么快
XGBoost防止过拟合的方法
XGBoost为什么若模型决策树的叶子节点值越大，越容易过拟合呢？
XGBoost为什么可以并行训练？
XGBoost中叶子结点的权重如何计算出来
XGBoost中的一棵树的停止生长条件
Xboost中的min_child_weight是什么意思
Xgboost中的gamma是什么意思
Xgboost中的参数
RF和GBDT的区别
xgboost本质上是树模型，能进行线性回归拟合么
Xgboos是如何调参的
为什么xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度？
为什么常规的gbdt和xgboost不适用于类别特别多的特征?
怎么处理类别特征在树模型下？
集成学习方法
bagging和boosting区别
为什么bagging减少方差
什么场景下采用bagging集成方法
bagging和dropout区别
为什么说bagging是减少variance，而boosting是减少bias?
adaboost为什么不容易过拟合？
组合弱学习器的算法？
DL
基础理论
说一下局部最优与全局最优的区别？
深度学习里，如何判断模型陷入局部最优？
Transfomer
Transformer为何使用多头注意力机制？
Transformer 相比于 RNN/LSTM，有什么优势？为什么
Transformer为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？
Transformer计算attention的时候为何选择点乘而不是加法？两者计算复杂度和效果上有什么区别？
为什么在进行softmax之前需要对attention进行scaled
说一下在计算attention score的时候如何对padding做mask操作？
为什么在进行多头注意力的时候需要对每个head进行降维？
大概讲一下Transformer的Encoder模块？
简单介绍一下Transformer的位置编码？有什么意义和优缺点？
你还了解哪些关于位置编码的技术，各自的优缺点是什么？
简单讲一下Transformer中的残差结构以及意义。
为什么transformer块使用LayerNorm而不是BatchNorm？LayerNorm 在Transformer的位置是哪里？
简答讲一下BatchNorm技术，以及它的优缺点。
简单描述一下Transformer中的前馈神经网络？使用了什么激活函数？相关优缺点？
Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别？
Transformer的并行化提现在哪个地方？
Decoder端可以做并行化吗？
简单描述一下wordpiece model 和 byte pair encoding，有实际应用过吗？
Transformer训练的时候学习率是如何设定的？Dropout是如何设定的，位置在哪里？Dropout 在测试的需要有什么需要注意的吗？
bert的mask为何不学习transformer在attention处进行屏蔽score的技巧？

以上是关于面试题：说下局部最优和全局最优的区别的主要内容，如果未能解决你的问题，请参考以下文章

一些贪心题的题解

动态规划与贪心算法的本质区别

面试题：简单讲一下贪心算法

SSO全局session失效了，服务A局部未失效，服务B局部失效，访问服务B怎么办

数据结构之贪心算法

关于FPGA的全局时钟和局部时钟的问题