Scipy/Numpy/scikits - 基于两个数组计算精度/召回分数

Posted

技术标签:

【中文标题】Scipy/Numpy/scikits - 基于两个数组计算精度/召回分数【英文标题】:Scipy/Numpy/scikits - calculating precision/recall scores based on two arrays 【发布时间】:2012-02-23 20:53:35 【问题描述】: 我拟合了一个逻辑回归模型,并使用以下方法根据训练数据集训练模型
import scikits as sklearn
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(C=0.1, penalty='l1')
model = lr.fit(training[:,0:-1], training[:,-1)
我有一个交叉验证数据集,其中包含与输入矩阵相关联的标签,并且可以作为 访问

cv[:,-1]

我针对经过训练的模型运行交叉验证数据集,该模型根据预测返回 0 和 1 列表

cv_predict = model.predict(cv[:,0:-1])

问题

我想根据实际标签和预测标签计算准确率和召回率分数。有没有使用 numpy/scipy/scikits 的标准方法?

谢谢

【问题讨论】:

【参考方案1】:

是的,请参阅文档:http://scikit-learn.org/stable/modules/classes.html#classification-metrics

您还应该看看sklearn.metrics.classification_report 实用程序:

>>> from sklearn.metrics import classification_report
>>> from sklearn.linear_model import SGDClassifier
>>> from sklearn.datasets import load_digits

>>> digits = load_digits()
>>> n_samples, n_features = digits.data.shape
>>> n_split = n_samples / 2

>>> clf = SGDClassifier().fit(digits.data[:n_split], digits.target[:n_split])

>>> predictions = clf.predict(digits.data[n_split:])
>>> expected = digits.target[n_split:]

>>> print classification_report(expected, predictions)
             precision    recall  f1-score   support

          0       0.90      0.98      0.93        88
          1       0.81      0.69      0.75        91
          2       0.94      0.98      0.96        86
          3       0.94      0.85      0.89        91
          4       0.90      0.93      0.91        92
          5       0.92      0.92      0.92        91
          6       0.92      0.97      0.94        91
          7       1.00      0.85      0.92        89
          8       0.71      0.89      0.79        88
          9       0.89      0.83      0.86        92

avg / total       0.89      0.89      0.89       899

【讨论】:

以上是关于Scipy/Numpy/scikits - 基于两个数组计算精度/召回分数的主要内容,如果未能解决你的问题,请参考以下文章

基于两列 SQL 搜索数据

使用 apply() 基于函数创建两列

基于两列之间的间隙重复记录

基于两表 MS Access 的数据排除

基于两列的 seaborn 范围背景

基于两列值的sql排序