Scikit 学习交叉验证拆分

Posted

技术标签:

【中文标题】Scikit 学习交叉验证拆分【英文标题】:Scikit learn cross validation split 【发布时间】:2015-08-06 00:54:18 【问题描述】:

我目前正在使用 cross_validation.cross_val_predict 来获取由 LogisticRegression 分类器做出的预测。我的问题是:构成训练集的数据百分比和构成测试集的百分比是多少?是 80%-20% 的拆分吗?

我在 *** 上查看了网站和其他问题,但没有找到问题的答案。

【问题讨论】:

【参考方案1】:

在documentation for this function 中,它声明为cv arg:

cv : 交叉验证生成器或 int,可选,默认值:无 要使用的交叉验证生成器。如果是 int,如果 y 是二元或多类并且 estimator 是分类器,则确定 StratifiedKFold 中的折叠数,否则确定 KFold 中的折叠数。如果为 None,则相当于 cv=3。此生成器必须仅包含测试集中的所有元素一次。否则,会引发 ValueError。

【讨论】:

是的,但他们没有说明在每一折中进入测试集的数据百分比。 不,我认为是:1/3rd。 好吧,我想这是有道理的。这就是我通常的做法,但我在某些地方读到他们的做法不同。无论如何,谢谢!

以上是关于Scikit 学习交叉验证拆分的主要内容,如果未能解决你的问题,请参考以下文章

Pandas:如何在不使用 scikit 的情况下进行交叉验证?

在 scikit-learn 中将 RandomizedSearchCV(或 GridSearcCV)与 LeaveOneGroupOut 交叉验证相结合

scikit-learn交叉验证及其用于參数选择模型选择特征选择的样例

使用 Scikit-Learn GridSearchCV 与 PredefinedSplit 进行交叉验证 - 可疑的交叉验证结果

评估 scikit-learn GridSearchCV 中交叉验证分数的平均值、标准差

Scikit Learn 中的交叉验证