特征选择（即 chi2 方法）产生的 p 值是啥意思？ [关闭]

Posted 2023-03-12

技术标签:

【中文标题】特征选择（即 chi2 方法）产生的 p 值是啥意思？ [关闭]【英文标题】：What's the meaning of p-values which produced by feature selection (i.e. chi2 method)? [closed]特征选择（即 chi2 方法）产生的 p 值是什么意思？ [关闭] 【发布时间】：2014-07-03 20:54:11 【问题描述】：

最近，我用sklearn（一个python机器学习库）做了一个短文本分类任务。我发现 SelectKBest 类可以选择 K best of features。然而，SelectKBest 的第一个参数是一个分数函数，它“取两个数组 X 和 y，并返回一对数组（分数，pvalues）”。我知道分数，但是 pvalue 的含义是什么？

【问题讨论】：

这最好移到 SO 的姊妹网站上进行统计 CrossValidated，它在自己的标签 p-value 下有很多帖子。或者是 beta 数据科学网站。 【参考方案1】：

通常，p 值表示在原假设下给定结果或更极端结果的可能性有多大。在您选择特征的情况下，零假设类似于 此特征不包含有关预测目标的信息，其中 没有信息 将在评分的意义上进行解释方法：如果您的评分方法测试例如单变量线性交互作用（sklearn.feature_selection 中的f_regression 是您的评分函数的选项），然后原假设说不存在这种线性交互作用。

TL;DR 特征选择分数的 p 值表示如果该变量与目标。

另一个一般性陈述：分数越大越好，p值越小越好（并且损失越小越好)

【讨论】：

实际上 p 值表示在独立假设下获得分数或任何更低分数的概率：它是分布尾部下方的区域。还值得一提的是，SelectFdr 和朋友使用 p 值（fdr = 错误发现率），SelectKBest 和 SelectPercentile 使用分数，并且 API 是根据 @ 中的那个建模的987654327@。 +1 其余答案。感谢您的评论。我的描述确实比较不准确。在连续分布中获得任何精确值的概率为 0 :)。在我编辑之前：在 F 分数的情况下，p 值代表上尾积分，而不是下尾积分，对吗？ IE。 p 值表示获得此 F 分数或任何更高分数的概率，如果我没有完全遗漏某些东西的话。对，我的错，是“或更高”而不是“或更低”。

以上是关于特征选择（即 chi2 方法）产生的 p 值是啥意思？ [关闭]的主要内容，如果未能解决你的问题，请参考以下文章

sklearn特征选择和分类模型

mybatis po对象是啥意

回归分析p值是啥意思？

从 selectKbest 中获取特征名称

06 决策树 - 案例一 - 鸢尾花数据分类、卡方检验

the hash for the file is not present in the specified catalog file，是啥意