为什么从glmnet模型中获取回归系数的统计汇总信息是不可取的?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为什么从glmnet模型中获取回归系数的统计汇总信息是不可取的?相关的知识,希望对你有一定的参考价值。

我有一个带二元结果的回归模型。我用glmnet拟合了模型并得到了选定的变量及其系数。

由于glmnet不计算变量重要性,我想将精确输出(选定变量及其系数)提供给glm以获取信息(标准错误等)。

我搜索了r文件,似乎我可以在glm中使用“method”选项来指定用户定义的函数。但我没有这样做,有人可以帮助我吗?

答案

“要求回归系数或其他估计量的标准误差是一个非常自然的问题。原则上,这样的标准误差可以很容易地计算,例如使用自举。

不过,这个软件包故意不提供它们。其原因在于标准误差对于强烈偏差估计而言并不是非常有意义,例如由惩罚估计方法引起的。惩罚估计是通过引入实质偏差来减少估计量方差的过程。因此,每个估计量的偏差是其均方误差的主要组成部分,而其方差可能只贡献一小部分。

不幸的是,在惩罚性回归的大多数应用中,不可能获得足够精确的偏差估计。任何基于bootstrap的计算都只能评估估计的方差。只有在可靠的无偏估计可用时才能获得可靠的偏差估计,而在使用惩罚估计的情况下通常不是这种情况。

因此,报告惩罚估计的标准误差只能说明故事的一部分。它可能给人一种极其精确的错误印象,完全忽略了偏差造成的不准确性。做出基于对估计方差的评估的置信度陈述肯定是错误的,例如基于引导程序的置信区间。

Jelle Goeman, Ph.D. Leiden University, Author of the Penalized package in R.

另一答案

有CRAN包hdiselectiveInference提供高维模型的推断,你可能想看看那些......我也看到人们只使用glm选择的预测变量运行glmnet,但这不是考虑到最佳模型本身选择过程产生的不确定性......

以上是关于为什么从glmnet模型中获取回归系数的统计汇总信息是不可取的?的主要内容,如果未能解决你的问题,请参考以下文章

R语言glmnet拟合lasso回归模型实战:lasso回归模型的模型系数及可视化lasso回归模型分类评估计算(混淆矩阵accuracyDeviance)

R语言glmnet拟合岭回归模型实战:岭回归模型的模型系数(ridge regression coefficients)及可视化岭回归模型分类评估计算(混淆矩阵accuracyDeviance)

按降序列出模型系数

r:来自 glmnet 和 caret 的系数对于相同的 lambda 是不同的

怎么用spss求多元线性回归模型的回归系数

从汇总函数中提取参数系数