特征选择(即 chi2 方法)产生的 p 值是啥意思? [关闭]
Posted
技术标签:
【中文标题】特征选择(即 chi2 方法)产生的 p 值是啥意思? [关闭]【英文标题】:What's the meaning of p-values which produced by feature selection (i.e. chi2 method)? [closed]特征选择(即 chi2 方法)产生的 p 值是什么意思? [关闭] 【发布时间】:2014-07-03 20:54:11 【问题描述】:最近,我用sklearn(一个python机器学习库)做了一个短文本分类任务。我发现 SelectKBest 类可以选择 K best of features。然而,SelectKBest 的第一个参数是一个分数函数,它“取两个数组 X 和 y,并返回一对数组(分数,pvalues)”。我知道分数,但是 pvalue 的含义是什么?
【问题讨论】:
这最好移到 SO 的姊妹网站上进行统计 CrossValidated,它在自己的标签 p-value 下有很多帖子。或者是 beta 数据科学网站。 【参考方案1】:通常,p 值表示在原假设下给定结果或更极端结果的可能性有多大。在您选择特征的情况下,零假设类似于 此特征不包含有关预测目标的信息,其中 没有信息 将在评分的意义上进行解释方法:如果您的评分方法测试例如单变量线性交互作用(sklearn.feature_selection
中的f_regression
是您的评分函数的选项),然后原假设说不存在这种线性交互作用。
TL;DR 特征选择分数的 p 值表示如果该变量与目标。
另一个一般性陈述:分数越大越好,p值越小越好(并且损失越小越好)
【讨论】:
实际上 p 值表示在独立假设下获得分数或任何更低分数的概率:它是分布尾部下方的区域。还值得一提的是,SelectFdr
和朋友使用 p 值(fdr = 错误发现率),SelectKBest
和 SelectPercentile
使用分数,并且 API 是根据 @ 中的那个建模的987654327@。 +1 其余答案。
感谢您的评论。我的描述确实比较不准确。在连续分布中获得任何精确值的概率为 0 :)。在我编辑之前:在 F 分数的情况下,p 值代表上尾积分,而不是下尾积分,对吗? IE。 p 值表示获得此 F 分数或任何 更高 分数的概率,如果我没有完全遗漏某些东西的话。
对,我的错,是“或更高”而不是“或更低”。以上是关于特征选择(即 chi2 方法)产生的 p 值是啥意思? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章
the hash for the file is not present in the specified catalog file,是啥意