为啥我的 Sklearn LogisticRegression 模型预测 100% 正确?
Posted
技术标签:
【中文标题】为啥我的 Sklearn LogisticRegression 模型预测 100% 正确?【英文标题】:Why is my Sklearn LogistricRegression model predicting 100% correctly?为什么我的 Sklearn LogisticRegression 模型预测 100% 正确? 【发布时间】:2020-06-26 08:35:14 【问题描述】:我有一个 3420 行 x 13 列的 Pandas DataFrame,我试图预测标签“FTR”是 1 还是 0。为此,我使用 Scikit learn 的 LogisticRegression。我的问题是我的模型预测 100% 正确,这似乎是不正确的。我有以下代码:
dataCopy = dataCopy[['FTHG', 'FTAG', 'FTR', 'HTGS', 'ATGS', 'HTGC', 'ATGC', 'HTP', 'ATP', 'HomeTeamLP', 'AwayTeamLP', 'MW', 'HTGD', 'ATGD', 'DiffPts', 'DiffFormPts', 'DiffLP']]
X_all = dataCopy.drop(['FTR'],axis=1)
y_all = dataCopy.FTR
X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, test_size=0.3)
LogReg = LogisticRegression()
LogReg.fit(X_train, y_train)
y_pred = LogReg.predict(X_test)
print(classification_report(y_test, y_pred))
打印出分类报告显示:
如果有人能告诉我为什么我得到 100%,我将不胜感激,因为它看起来不正确。
【问题讨论】:
有时可以清楚地分离类和数据输入而没有噪音。如果您对此不满意,请向我们展示您的完整管道,包括您的数据。 【参考方案1】:您检查过逻辑回归权重吗?这是LogReg
逻辑回归中的coef_
属性。有可能它使用其中一个特征进行预测的次数要多于其他特征。如果是这种情况,那么该功能是否可以合理地包含在培训中?
根据所提供的信息,很难准确诊断出发生了什么。
【讨论】:
以上是关于为啥我的 Sklearn LogisticRegression 模型预测 100% 正确?的主要内容,如果未能解决你的问题,请参考以下文章
为啥 sklearn 的训练/测试拆分加上 PCA 会使我的标签不正确?
为啥我的 k-means 收敛条件给出的结果与 sklearn 不同?