数据挖掘 回归分析
Posted shi_zi_183
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘 回归分析相关的知识,希望对你有一定的参考价值。
回归分析
回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,以帮助人们准确把握变量受其他一个或多个变量影响的程度,进而预测提供科学依据。在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析、时间序列模型,以及发现变量之间的因果关系。
回归分析概述
基本概念
回归分析是处理多变量间相关关系的一种数学方法。相关关系不同于函数关系,后者反映变量之间的严格依存性,而前者则表现出一定程度的波动性或随机性,对自变量的每一个取值,因变量可以有多个数值与之相对应。在统计上,研究相关关系可以运用回归分析和相关分析(correlation analysis)。
当自变量为非随机变量而因变量为随机变量时,它们的关系分析成为回归分析;当两者都是随机变量时,它们的关系分析成为相关分析。回归分析和相关分析往往不加区分。广义上说,相关分析包括回归分析,但严格地说两者是有区别的。具有相关关系的两个变量
ξ
\\xi
ξ和
η
\\eta
η,他们之间虽存在着密切的关系,但不能由一个变量的数值精准地求出另一个变量地值。通常选定
ξ
=
η
\\xi = \\eta
ξ=η时
η
\\eta
η的数学期望作为对应
ξ
=
η
\\xi = \\eta
ξ=η时
η
\\eta
η的代表值,因为它反映
ξ
=
x
\\xi = x
ξ=x条件下
η
\\eta
η取值的平均水平。这样的对应关系称为回归关系。根据回归分析可以建立变量间的数学表达式,称为回归方程。回归方程反映自变量在固定条件下因变量的平均状态变化情况。相关分析是以某一指标来度量回归方程所描述的各个变量间关系的密切程度。相关分析常用回归分析来补充,二者相辅相成。若通过相关分析显示出变量间关系十分密切,则通过所建立的回归方程可以获取相当准确的取值。
可解决的问题
- 建立变量间的数学表达式,通常称为经验公式。
- 利用概率统计基础知识进行分析,从而判断所建立的经验公式的有效性。
- 进行因素分析,确定影响某一变量的若干变量中,何者为主要,何者为次要,以及它们之间的关系。
具体相关关系的变量之间虽然具有某种不确定性,但是通过对现象的不断观察可以探索出它们之间的统计规律,这类统计规律称为回归关系。有关回归关系的理论、计算和分析称为回归分析。
回归分析的步骤
首先确定要进行预测的因变量,然后集中于说明变量,进行多元回归分析的多元回归分析将给出因变量于说明变量之间的关系。这一关系最后以公式形式,通过它预测因变量的未来值。
回归分析可以分为线性回归分析和逻辑回归分析。
线性回归
简单而言,线性回归就是将输入项分别乘以一些常数,再将结果加起来得到输出。线性回归包括一元线性回归和多元线性回归。
简单线性回归分析
线性回归分析中,如果仅有一个自变量于一个因变量,且关系大致上可用一条直线表示,则称之为简单线性回归分析。
如果发现因变量Y和自变量X之间存在高度的正相关,则可以确定一条直线方程,使得所有的数据点尽可能接近这条拟合的直线。简单线性回归分析的模型可以用以下方程表示:
Y
=
a
+
b
x
Y = a + bx
Y=a+bx
其中,Y为因变量,a为截距,b为相关系数,x为自变量。
多元线性回归分析
多元线性回归分析是简单线性回归分析的推广,指的是多个因变量对多个自变量的回归分析。其中最常用的是只限于一个因变量但有多个自变量的情况,也叫多重回归分析。多重回归分析的一般形式如下
Y
=
a
+
b
1
X
1
+
b
2
X
2
+
b
3
X
3
+
⋯
+
b
k
X
k
Y = a + b_{1}X_{1} + b_{2}X_{2} + b_{3}X_{3} +\\cdots+ b_{k}X_{k}
Y=a+b1X1+b2X2+b3X3+⋯+bkXk
其中,a代表截距,
b
1
,
b
2
,
b
3
⋯
b
k
b_{1},b_{2},b_{3}\\cdots b_{k}
b1,b2,b3⋯bk为回归系数。
非线性回归数据分析
对于线性回归问题,样本点落在空间中的一条直线上或该直线的附近,因此可以使用一个线性函数表示自变量和因变量间的对应关系。然而在一些应用中,变量间的关系呈现曲线形式,因此无法用线性函数表示自变量和因变量间的对应关系,而需要使用非线性函数表示。
数据挖掘中常用的一些非线性回归模型
- 渐进回归模型: Y = a + b e − r X Y = a + be^{-rX} Y=a+be−rX
- 二次曲线模型: Y = a + b 1 X + b 2 X 2 Y = a + b_{1}X + b_{2}X^{2} Y=a+b1X+b2X2
- 双曲线模型: Y = a + b X Y = a + \\frac{b}{X} Y=a+Xb
由于许多非线性模型是等价的,所以模型的 参数化不是唯一的,这使得非线性模型的拟合和解释相比线性模型复杂得多。在非线性回归分析中估算回归参数的最通用的方法依然是最小二乘法。
最小二乘法推导
已知有
n
n
n个数据点:
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
⋯
(
x
n
,
y
n
)
(x_{1},y_{1}),(x_{2},y_{2})\\cdots(x_{n},y_{n})
(x1,y1),(x2,y2)⋯(xn,yn) 以上是关于数据挖掘 回归分析的主要内容,如果未能解决你的问题,请参考以下文章
需要对这
n
n
n个数据点进行曲线拟合,通过观察发现,它近似于抛物线假定曲线方程的形式为
y
=
a
2
x
2
+
a
1
x
+
a
0
y=a_{2}x^{2}+a_{1}x+a_{0}
y=a2x2+a1x+a0其中
a
0
,
a
1
,
a
2
a_{0},a_{1},a_{2}
a0,a1,a2是未知的如果把
(
x
1
,
x
2
)
(x_1 , x_2)
(x1,x2)带入方程,得到:
y
1
=
a
2
x
1
2
+
a
1
x
1
+
a
0
y_1 = a_2x_{1}^{2}+a_{1}x_{1}+a_{0}
y1=a2x12+a1x1+a0然后变形:
(
x
1
2
x
1
1
)
(
a
2
a
1
a
0
)
=
y
1
\\begin{gathered} \\begin{pmatrix} x_{1}^{2} & x_{1} & 1\\end{pmatrix} \\begin{pmatrix} a_{2} \\\\ a_{1} \\\\ a_{0}\\end{pmatrix} =y_{1} \\end{gathered}
(x12x11)⎝⎛a2a1a0⎠⎞=y1
同理
(
x
i
,
y
i
)
,
i
=
1
,
2
⋯
n
(x_i,y_i),i=1,2\\cdots n
(xi,yi),i=1,2⋯n,可以得到:
(
x
i
2
x
i
1
)
(
a