RandomizedSearchCV 使用相同的 random_state 给出不同的结果

Posted

技术标签:

【中文标题】RandomizedSearchCV 使用相同的 random_state 给出不同的结果【英文标题】:RandomizedSearchCV gives different results using the same random_state 【发布时间】:2017-05-21 19:59:33 【问题描述】:

我正在使用管道来执行特征选择和使用RandomizedSearchCV 的超参数优化。以下是代码摘要:

from sklearn.cross_validation import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectKBest
from sklearn.grid_search import RandomizedSearchCV
from sklearn.pipeline import make_pipeline
from scipy.stats import randint as sp_randint

rng = 44

X_train, X_test, y_train, y_test = 
   train_test_split(data[features], data['target'], random_state=rng)


clf = RandomForestClassifier(random_state=rng)
kbest = SelectKBest()
pipe = make_pipeline(kbest,clf)

upLim = X_train.shape[1]
param_dist = 'selectkbest__k':sp_randint(upLim/2,upLim+1),
  'randomforestclassifier__n_estimators': sp_randint(5,150),
  'randomforestclassifier__max_depth': [5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, None],
  'randomforestclassifier__criterion': ["gini", "entropy"],
  'randomforestclassifier__max_features': ['auto', 'sqrt', 'log2']
clf_opt = RandomizedSearchCV(pipe, param_distributions= param_dist, 
                             scoring='roc_auc', n_jobs=1, cv=3, random_state=rng)
clf_opt.fit(X_train,y_train)
y_pred = clf_opt.predict(X_test)

我对@9​​87654324@、RandomForestClassiferRandomizedSearchCV 使用常量random_state。但是,如果我多次运行上述代码,结果会略有不同。更具体地说,我的代码中有几个测试单元,这些略有不同的结果会导致测试单元失败。我不应该因为使用相同的random_state 而获得相同的结果吗?我的代码中是否遗漏了任何会在部分代码中产生随机性的内容?

【问题讨论】:

【参考方案1】:

我通常会回答自己的问题!我会把它留给其他有类似问题的人:

为了确保避免任何随机性,我定义了一个随机种子。代码如下:

from sklearn.cross_validation import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectKBest
from sklearn.grid_search import RandomizedSearchCV
from sklearn.pipeline import make_pipeline
from scipy.stats import randint as sp_randint

seed = np.random.seed(22)

X_train, X_test, y_train, y_test = 
   train_test_split(data[features], data['target'])


clf = RandomForestClassifier()
kbest = SelectKBest()
pipe = make_pipeline(kbest,clf)

upLim = X_train.shape[1]
param_dist = 'selectkbest__k':sp_randint(upLim/2,upLim+1),
  'randomforestclassifier__n_estimators': sp_randint(5,150),
  'randomforestclassifier__max_depth': [5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, None],
  'randomforestclassifier__criterion': ["gini", "entropy"],
  'randomforestclassifier__max_features': ['auto', 'sqrt', 'log2']
clf_opt = RandomizedSearchCV(pipe, param_distributions= param_dist, 
                             scoring='roc_auc', n_jobs=1, cv=3)
clf_opt.fit(X_train,y_train)
y_pred = clf_opt.predict(X_test)

我希望它可以帮助别人!

【讨论】:

虽然我不确定为什么原始代码没有按预期工作(而且我懒得处理它),但我不会将此解决方案称为完美解决方案。在这里,您假设这三个组件之间的操作顺序始终相同,这段代码应该没问题,但会在更复杂的任务中引入麻烦。它基本上是从多个随机流到一个随机流的切换。 @sascha:感谢您的评论!我仍然很好奇找出主要原因。你认为scipy.stats.randint的使用会导致问题吗? 感谢您提供如何将 RandomizedSearchCV 和 make_pipeline 与向 params 字典添加“randomforestclassifier__”(在本例中)相结合的示例。 @MhFarahani 对于脚本的确定运行,您可能需要使用 np.random.seed 和 random.seed 以防第三方函数混合它们。

以上是关于RandomizedSearchCV 使用相同的 random_state 给出不同的结果的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 RandomizedSearchCV 正确实现 StratifiedKFold

如何为 RandomizedSearchCV 使用预定义拆分

sklearn:在 RandomizedSearchCV 中使用管道?

sklearn 使用带有自定义指标的 RandomizedSearchCV 并捕获异常

使用 RandomizedSearchCV 进行随机森林调优

仅在训练折叠上使用带有 SMOTE 过采样的 sklearn 的 RandomizedSearchCV