线性模型系数解读中的那些坑,以套索回归(LASSO)和岭回归(Ridege)为例
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了线性模型系数解读中的那些坑,以套索回归(LASSO)和岭回归(Ridege)为例相关的知识,希望对你有一定的参考价值。
线性模型系数解读中的那些坑,以套索回归(LASSO)和岭回归(Ridege)为例
在线性回归类模型的训练过程中,模型通过数据拟合了目标变量y与特征变量X的关心,通过特征变量的线性组合来表征目标变量y;
每一个特征表征的就是特征和目标变量y之间的关系,其中的假设是其他所有的变量都是定值或者常量(依赖条件);
以下将通过一些例子来解读线性模型的特征系数并指出模型不适用或者是特征共线性的等问题引起的模型系数解读不可靠的问题;
使用的数据集是“Current Population Survey”数据集,该数据集采集于1985年,使用年龄、经验、教育程度等信息去预测工资水平;
虽然该数据比较久远,但是作为示例说明是没有任何问题的;
目标变量是每个小时的薪水(美元/小时),即每小时能赚多少钱;
# 导入需要的计算框架、包、可视化环境等;
from IPython.core.display import display, html
display(HTML("<style>.container { width:100% !important; }</style>"))
# set up display area to show dataframe in jupyter qtconsole
import numpy as np
import pandas as pd
import matplotlib
from matplotlib import
以上是关于线性模型系数解读中的那些坑,以套索回归(LASSO)和岭回归(Ridege)为例的主要内容,如果未能解决你的问题,请参考以下文章
r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现
R语言广义线性模型函数GLMglm函数构建泊松回归模型(Poisson regression)泊松回归模型系数解读查看系数的乘法效应(Interpreting the model para)