为啥在为 RandomizedSearchCV 的参数“param_distributions”提供字典列表时出现错误?

Posted

技术标签:

【中文标题】为啥在为 RandomizedSearchCV 的参数“param_distributions”提供字典列表时出现错误?【英文标题】:Why am I getting an error when the parameter 'param_distributions' of RandomizedSearchCV is given a List of Dictionaries?为什么在为 RandomizedSearchCV 的参数“param_distributions”提供字典列表时出现错误? 【发布时间】:2020-07-15 17:50:51 【问题描述】:

我可以在documentation 中看到参数param_distribution 接受dict 或dict 列表。当我传递字典时,我的代码在这里有效,但是一旦传递字典列表就会出现错误。

from sklearn.model_selection import train_test_split
from sklearn.model_selection import RandomizedSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_breast_cancer
import pandas as pd
import numpy as np

breast_cancer = load_breast_cancer()
df = pd.DataFrame(load_breast_cancer().data, columns = breast_cancer.feature_names)
df['target'] = pd.Series(load_breast_cancer().target)
df.head()

Xi = df.iloc[:,:-1]
Yi = df.iloc[:,-1]

x_train1, x_test1, y_train1, y_test1 = train_test_split(Xi, Yi, train_size = 0.9)
dist = ['C': np.random.uniform(34,89,4), "C": np.random.uniform(2, 16, 5)]    # "C": uniform(4, 97)
rcv = RandomizedSearchCV(estimator = LogisticRegression(), cv = 5, scoring= 'roc_auc', n_jobs= 5,
                         param_distributions= dist, n_iter = 10)

rcv.fit(x_train1, y_train1)

输出:

AttributeError Traceback(最近一次调用最后一次)

AttributeError: 'list' 对象没有属性 'values'

当我用单个字典替换这个字典列表时,我的代码工作正常,例如

dist = 'C': np.random.uniform(34,89,45)

rcv = RandomizedSearchCV(estimator = LogisticRegression(), cv = 5, scoring= 'roc_auc', n_jobs= 5,
                         param_distributions= dist, n_iter = 20)

rcv.fit(x_train1, y_train1)

输出:

RandomizedSearchCV(cv=5, error_score='raise-deprecating',
                   estimator=LogisticRegression(C=1.0, class_weight=None,
                                                dual=False, fit_intercept=True,
                                                intercept_scaling=1,
                                                l1_ratio=None, max_iter=100,
                                                multi_class='warn', n_jobs=None,
                                                penalty='l2', random_state=None,
                                                solver='warn', tol=0.0001,
                                                verbose=0, warm_start=False),
                   iid='warn', n_iter=20, n_jobs=5,
                   param_distributions...
       68.32247988, 53.2886396 , 64.71957325, 53.42115708, 66.06577109,
       54.09200687, 87.22769322, 81.02240252, 55.25783926, 84.31009298,
       71.13884939, 85.74823239, 87.23400718, 54.48527833, 59.49131351,
       63.59157499, 38.9348315 , 51.5738502 , 82.72414647, 75.27901268,
       42.63960409, 40.65314118, 56.97608301, 66.41059041, 58.37528729]),
                   pre_dispatch='2*n_jobs', random_state=None, refit=True,
                   return_train_score=False, scoring='roc_auc', verbose=0)

【问题讨论】:

在修正 Xi 和 Yi 后,您的代码使用 sklearn v0.22.2 运行良好。你的版本是什么? 我尝试运行:`sklearn.__version__` 它说“0.22” 请让您的代码完全可重现 - 定义 XiYi @desertnaut,我编辑了我的代码! 正如@SergeyBushmanov 报告的那样,我也无法用sklearn 0.22.2 重现您的问题;第一个代码 sn-p 工作正常。 【参考方案1】:

上述代码适用于@SergeyBushmanov 建议的sklearn 版本v0.22.2。 我还必须调整n_iter 参数的值以避开警告消息。在将参数设置为 20 之前,因为出现了这些警告。这些警告也是合法的,因为我有两个超参数(“C”)dist = ['C': np.random.uniform(34,89,4), "C": np.random.uniform(2, 16, 5)]。现在,总共有 4x5=20 种超参数组合可供尝试。 n_iter 指定要尝试的组合数。如果n_iter = 10,则表示在 20 个中,RandomSearchCV 将随机尝试 10 个超参数值的组合。

【讨论】:

以上是关于为啥在为 RandomizedSearchCV 的参数“param_distributions”提供字典列表时出现错误?的主要内容,如果未能解决你的问题,请参考以下文章

为啥在为 ROR 安装 DevKit 时出现此错误

为啥在为数据库设计关系时应该避免循环?

如何使用 RandomizedSearchCV 正确实现 StratifiedKFold

为啥在为接口创建实例时它可以在 C# 中工作?

为啥我的应用程序在为 ui 元素分配弱引用时崩溃?

如何为 RandomizedSearchCV 使用预定义拆分