机器学习简答题速记

Posted 2022-01-22 寂静花开

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习简答题速记相关的知识，希望对你有一定的参考价值。

简答题：

简答题：

1、请简述人工智能和机器学习，深度学习的关系？

机器学习是人工智能的一个实现途径。深度学习是机器学习的一个方法发展而来

2、根据数据集组成不同，通常可以把机器学习算法分为哪四类？

监督学习、无监督学习、半监督学习、强化学习

3、请简述什么是监督学习？什么是无监督学习？

监督学习的输入数据是由输入特征值和目标值所组成。无监督学习输入数据是由输入特征值组成，没有目标值。

4、请简述什么是机器学习？

机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。

5、机器学习工作流程有哪五步？

1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
结果达到要求就上线服务，如果没有达到要求，重新上面步骤

6、请简述什么是特征工程？

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。

7、请简述特征工程主要包含什么内容？

特征提取、特征预处理、特征降维。

8、请简述什么是特征提取？

将任意数据（如文本或图像）转换为可用于机器学习的数字特征。

9、请简述什么是特征预处理？

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。

10、请简述什么是特征降维？

指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程。

11、分类模型评估的主要评价指标有哪些？

准确率、精确率、召回率、F1-score、AUC指标等

12、回归模型评估的主要评价指标有哪些？

均方根误差（RMSE）、相对平方误差（RSE）、平均绝对误差（MAE)、相对绝对误差（RAE)

13、简要说明什么是超参数？

超参数就是在运行机器学习算法之前需要指定值的参数

14、超参数和模型参数有什么不同?

超参数：指在算法运行前需要指定的参数
模型参数：指算法过程中学习的参数

15、什么情况我们需要对数据进行归一化处理？归一化的作用什么？

我们在训练模型时，如果特征之间的值差距较大，不能直接传入模型，就需要对数据做归一化处理。
作用：将所有数据映射到同一尺度。

16、常用的归一化的方法有哪两个？分别适用的情况是什么？

1.最值归一化(Normalization)：

把所有数据映射到(0,1)之间。
适用情况：分布有明显边界

2.均值方差归一化(standardization)：

把所有数据归一到均值为0方差为1的分布中。
适用情况：数据分布没有明显边界

17、简述K-近邻算法的优点和缺点。

优点：
1.天然能够解决多分类问题；
2.思想简单，效果强大；
3.使用k-近邻算法还可以解决回归问题

缺点：
1.效率低下、时间复杂度高；
2.高度数据相关；
3.预测结果不具有可解释性
4.维数灾难

18、什么是线性回归？它的特点是什么？

线性回归是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归。

19、线性回归中的梯度下降和正规方程方法有什么不同？

1.梯度下降需要选择学习率，正规方程不需要
2.梯度下降需要迭代求解，正规方程一次运算得出结果
3.梯度下降在特征数量较大也可以使用，正规方程因为需要计算方程，时间复杂度高O(n3)

20、常见的梯度下降算法有哪些？

全梯度下降算法，随机梯度下降算法，小批量梯度下降算法，随机平均梯度下降算法。

21、简述欠拟合原因以及解决办法。

原因：学习到数据的特征过少
解决办法：
1）添加其他特征项。
2）添加多项式特征

22、简述过拟合原因以及解决办法。

原因：原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点。
解决办法：
1）重新清洗数据。
2）增大数据的训练量。
3）正则化
4）减少特征维度，防止维度灾难

23、什么是正则化？正则化类别有哪两种？

在学习的时候，数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多，所以算法在学习的时候尽量减少这个特征的影响（甚至删除某个特征的影响），这就是正则化。
有L1正则化（Ridge回归）和L2正则化（LASSO回归）。

24、什么是精确率？

预测结果为正例样本中真实为正例的比例

25、什么是召回率？

真实为正例的样本中预测结果为正例的比例（查得全，对正样本的区分能力）

26、简述 k-means聚类算法实现的步骤。

1）随机设置K个特征空间内的点作为初始的聚类中心。
2）对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别。
3）接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）。
4）如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程

27、简述一下K-means算法的优点。

1）原理简单（靠近中心点），实现容易。
2）聚类效果中上（依赖K的选择）。
3）空间复杂度o(N)，时间复杂度o(IKN) 。N为样本点个数，K为中心点个数，I为迭代次数。

28、简述一下K-means算法的缺点。

答案：
1）对离群点，噪声敏感（中心点易偏移）。
2）很难发现大小差别很大的簇及进行增量计算。
3）结果不一定是全局最优，只能保证局部最优（与K的个数及初值选取有关）。

29、在聚类算法中什么是降维？它有哪两种形式？

降维：在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程。
两种形式：特征选择和主成分分析。

30、在聚类算法中什么是主成分分析(PCA)？

高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量。

31、在聚类算法中主成分分析(PCA)的作用是什么？

作用是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。

以上是关于机器学习简答题速记的主要内容，如果未能解决你的问题，请参考以下文章

机器学习 简答题 速记