Scikit 学习交叉验证拆分
Posted
技术标签:
【中文标题】Scikit 学习交叉验证拆分【英文标题】:Scikit learn cross validation split 【发布时间】:2015-08-06 00:54:18 【问题描述】:我目前正在使用 cross_validation.cross_val_predict 来获取由 LogisticRegression 分类器做出的预测。我的问题是:构成训练集的数据百分比和构成测试集的百分比是多少?是 80%-20% 的拆分吗?
我在 *** 上查看了网站和其他问题,但没有找到问题的答案。
【问题讨论】:
【参考方案1】:在documentation for this function 中,它声明为cv
arg:
cv : 交叉验证生成器或 int,可选,默认值:无 要使用的交叉验证生成器。如果是 int,如果 y 是二元或多类并且 estimator 是分类器,则确定 StratifiedKFold 中的折叠数,否则确定 KFold 中的折叠数。如果为 None,则相当于 cv=3。此生成器必须仅包含测试集中的所有元素一次。否则,会引发 ValueError。
【讨论】:
是的,但他们没有说明在每一折中进入测试集的数据百分比。 不,我认为是:1/3rd。 好吧,我想这是有道理的。这就是我通常的做法,但我在某些地方读到他们的做法不同。无论如何,谢谢!以上是关于Scikit 学习交叉验证拆分的主要内容,如果未能解决你的问题,请参考以下文章
Pandas:如何在不使用 scikit 的情况下进行交叉验证?
在 scikit-learn 中将 RandomizedSearchCV(或 GridSearcCV)与 LeaveOneGroupOut 交叉验证相结合
scikit-learn交叉验证及其用于參数选择模型选择特征选择的样例
使用 Scikit-Learn GridSearchCV 与 PredefinedSplit 进行交叉验证 - 可疑的交叉验证结果