机器学习 之 线性回归 概念总结速记
Posted 寂静花开
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习 之 线性回归 概念总结速记相关的知识,希望对你有一定的参考价值。
目 录
线性回归简介
线性回归应用场景
- 房价预测
- 销售额度预测
- 贷款预测
线性回归定义
线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。
特点:
单变量回归:只有一个自变量
多元回归:多于一个自变量
公式
h
(
w
)
=
w
1
x
1
+
w
2
x
2
+
w
3
x
3
+
.
.
.
+
b
=
w
T
x
+
b
h(w)=w_1x_1+w_2x_2+w_3x_3+...+b=w^Tx+b
h(w)=w1x1+w2x2+w3x3+...+b=wTx+b,
其中
w
=
(
b
w
1
w
2
⋮
)
w= \\beginpmatrix b \\\\ w_1 \\\\ w_2 \\\\ \\vdots \\endpmatrix
w=⎝⎜⎜⎜⎛bw1w2⋮⎠⎟⎟⎟⎞,
x
=
(
1
x
1
x
2
⋮
)
x= \\beginpmatrix 1 \\\\ x_1 \\\\ x_2\\\\\\vdots \\endpmatrix
x=⎝⎜⎜⎜⎛1x1x2⋮⎠⎟⎟⎟⎞
特征值与目标值之间建立了一个关系,这个关系可以理解为线性模型
线性回归模型
线性关系:
- 单变量线性关系:单特征与与目标值的关系呈直线关系
- 多变量线性关系:例,两个特征与目标值呈现平面的关系
非线性关系
线性回归初步使用
步骤分析
- 1.获取数据集
- 2.数据基本处理
- 3.特征工程
- 4.机器学习
- 5.模型评估
代码过程
- 导入模块
- 构造数据集
- 机器学习-模型训练
线性回归的损失和优化
损失函数
最小二乘法
优化算法
线性回归经常使用的两种优化算法
正规方程
梯度下降法
正规方程
x
w
=
(
X
T
X
)
−
1
X
T
y
xw=(X^TX)^-1X^Ty
xw=(XTX)−1XTy
理解:X为特征值矩阵,y为目标值矩阵。直接求到最好的结果
缺点:当特征过多过复杂时,求解速度太慢并且得不到结果
正规方程 – 一蹴而就
- 利用矩阵的逆,转置进行一步求解
- 只是适合样本和特征比较少的情况
梯度下降
梯度下降的基本过程就和下山的场景很类似。
一个可微分的函数。这个函数就代表着一座山。
我们的目标就是找到这个函数的最小值,也就是山底。
梯度的概念
-
在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率;
-
在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向。
- 单变量 – 切线
- 多变量 – 向量
梯度下降法中关注的两个参数
- α – 就是步长
- 步长太小 – 下山太慢
- 步长太大 – 容易跳过极小值点(*****)
- 为什么梯度要加一个负号
- 梯度方向是上升最快方向,负号就是下降最快方向
全梯度下降算法(FG)
- 在进行计算的时候,计算所有样本的误差平均值,作为我的目标函数
随机梯度下降算法(SG)
- 每次只选择一个样本进行考核
小批量梯度下降算法(mini-batch)
- 选择一部分样本进行考核
随机平均梯度下降算法(SAG)
- 会给每个样本都维持一个平均值,后期计算的时候,参考这个平均值
梯度下降和正规方程的对比
梯度下降 | 正规方程 |
---|---|
需要选择学习率 | 不需要 |
需要迭代求解 | 一次运算得出 |
特征数量较大可以使用 | 需要计算方程,时间复杂度高O(n3) |
算法选择依据
- 小规模数据:
- 正规方程:LinearRegression(不能解决拟合问题)
- 岭回归
- 大规模数据:
- 梯度下降法:SGDRegressor
欠拟合和过拟合
定义
-
过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据(体现在准确率下降),此时认为这个假设出现了过拟合的现象。(模型过于复杂)
-
欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)
区别
- 欠拟合在训练集和测试集上的误差都较大
- 过拟合在训练集上误差较小,而测试集上误差较大
二者出现的原因和解决办法
-
欠拟合
- 原因:学习到数据的特征过少
- 解决办法:
- 1)添加其他特征项
- 2)添加多项式特征
-
过拟合
- 原因:原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点
- 解决办法:
- 1)重新清洗数据
- 2)增大数据的训练量
- 3)正则化
- 4)减少特征维度,防止维灾难
正则化
数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减少这个特征的影响(甚至删除某个特征的影响)
- 通过限制高次项的系数进行防止过拟合
- L1正则化
- 理解:直接把高次项前面的系数变为0
- Lasso回归
- L2正则化
- 理解:把高次项前面的系数变成特别小的值
- 岭回归
以上是关于机器学习 之 线性回归 概念总结速记的主要内容,如果未能解决你的问题,请参考以下文章
❤️解决非线性回归问题的机器学习方法总结:多项式线性模型广义线性(GAM)模型回归树模型支持向量回归(SVR)模型