我应该如何在 Scikit-learn 中使用 RandomizedLogisticRegression?

Posted

技术标签:

【中文标题】我应该如何在 Scikit-learn 中使用 RandomizedLogisticRegression?【英文标题】:How am I supposed to use RandomizedLogisticRegression in Scikit-learn? 【发布时间】:2013-12-13 08:00:24 【问题描述】:

我只是无法理解此类的documentation。 我可以使用它来拟合数据,并获得特征的分数,但这都是这个类应该做的吗?

我看不出如何使用它来使用适合的模型实际执行回归。上面文档中的示例只是创建类的一个实例,所以我看不出这应该有什么帮助。

有一些方法可以执行“转换”操作,但没有提到那是什么类型的转换。

那么是否可以使用这个类来获得对新测试数据的实际预测,是否可以在交叉折叠验证中使用它来比较我正在使用的其他方法的性能?

我在其他分类器中使用了排名最高的功能,但我不确定这个分类器是否可以实现更多功能。

更新:我在文档的feature selection 部分找到了 fit_transform 的用法:

当目标是降低数据的维度以与另一个分类器一起使用时,他们公开了一种变换方法来选择非零系数

除非我得到一个说我错了的答案,否则我会假设这个分类器确实不做预测。我会等我回答我自己的问题。

【问题讨论】:

【参考方案1】:

随机 LR 应该是一种特征选择方法,而不是其本身的分类器。它的 API 与标准 scikit-learn 转换器相匹配:

randomlr = RandomizedLogisticRegression()
X_train = randomlr.fit_transform(X_train)
X_test = randomlr.transform(X_test)

然后将模型拟合到X_train 并照常在X_test 上进行分类。

【讨论】:

感谢您的确认。文档可能包含您的陈述,对于第一次查看它的人来说,事情会更容易弄清楚。 @sarikan: pull request 带有文档字符串的改进版本将不胜感激。 我很高兴,一定会这样做(ps:为什么我似乎不能使用'at'larsmans 来指代你的昵称?当我在评论中输入它时它似乎消失了 我也看到过这种情况。我不知道为什么会这样,但既然你在回复我的回答,我还是会收到一个 ping。

以上是关于我应该如何在 Scikit-learn 中使用 RandomizedLogisticRegression?的主要内容,如果未能解决你的问题,请参考以下文章

scikit-learn RandomForestClassifier - 如何解释树输出?

如何在 scikit-learn 中使用 KDE(核密度估计)进行一维数组聚类?

R 和 scikit-learn 在分类任务中与逻辑回归的比较

如何从 scikit-learn DecisionTreeClassifier 获取信息增益?

如何从 scikit-learn DecisionTreeClassifier 获取信息增益?

如何知道使用 Scikit-learn 构建的树的大小(节点数)?