召回率 = 0 的 SVM 和随机森林
Posted
技术标签:
【中文标题】召回率 = 0 的 SVM 和随机森林【英文标题】:SVM and Random Forest with recall = 0 【发布时间】:2020-03-08 15:28:12 【问题描述】:我试图从可能出现在“退出”列中的两个值中预测一个。我有干净的数据(大约 20 列和 4k 行包含有关客户的典型信息,例如“性别”、“年龄”......)。在训练数据集中,大约 20% 的客户被认定为“1”。我制作了两个模型——svm 和随机森林——但都预测测试数据集大多为“0”(几乎每次)。两个模型的召回率为 0。 我附上了我认为我可能会犯一些愚蠢错误的代码。任何想法为什么在 80% 的准确率下召回率如此之低?
def ml_model():
print('sklearn: %s' % sklearn.__version__)
df = pd.read_csv('clean_data.csv')
df.head()
feat = df.drop(columns=['target'], axis=1)
label = df["target"]
x_train, x_test, y_train, y_test = train_test_split(feat, label, test_size=0.3)
sc_x = StandardScaler()
x_train = sc_x.fit_transform(x_train)
# SVC method
support_vector_classifier = SVC(probability=True)
# Grid search
rand_list = "C": stats.uniform(0.1, 10),
"gamma": stats.uniform(0.1, 1)
auc = make_scorer(roc_auc_score)
rand_search_svc = RandomizedSearchCV(support_vector_classifier, param_distributions=rand_list, n_iter=100, n_jobs=4, cv=3, random_state=42,
scoring=auc)
rand_search_svc.fit(x_train, y_train)
support_vector_classifier = rand_search_svc.best_estimator_
cross_val_svc = cross_val_score(estimator=support_vector_classifier, X=x_train, y=y_train, cv=10, n_jobs=-1)
print("Cross Validation Accuracy for SVM: ", round(cross_val_svc.mean() * 100, 2), "%")
predicted_y = support_vector_classifier.predict(x_test)
tn, fp, fn, tp = confusion_matrix(y_test, predicted_y).ravel()
precision_score = tp / (tp + fp)
recall_score = tp / (tp + fn)
print("Recall score SVC: ", recall_score)
# Random forests
random_forest_classifier = RandomForestClassifier()
# Grid search
param_dist = "max_depth": [3, None],
"max_features": sp_randint(1, 11),
"min_samples_split": sp_randint(2, 11),
"bootstrap": [True, False],
"criterion": ["gini", "entropy"]
rand_search_rf = RandomizedSearchCV(random_forest_classifier, param_distributions=param_dist,
n_iter=100, cv=5, iid=False)
rand_search_rf.fit(x_train, y_train)
random_forest_classifier = rand_search_rf.best_estimator_
cross_val_rfc = cross_val_score(estimator=random_forest_classifier, X=x_train, y=y_train, cv=10, n_jobs=-1)
print("Cross Validation Accuracy for RF: ", round(cross_val_rfc.mean() * 100, 2), "%")
predicted_y = random_forest_classifier.predict(x_test)
tn, fp, fn, tp = confusion_matrix(y_test, predicted_y).ravel()
precision_score = tp / (tp + fp)
recall_score = tp / (tp + fn)
print("Recall score RF: ", recall_score)
new_data = pd.read_csv('new_data.csv')
new_data = cleaning_data_to_predict(new_data)
if round(cross_val_svc.mean() * 100, 2) > round(cross_val_rfc.mean() * 100, 2):
predictions = support_vector_classifier.predict(new_data)
predictions_proba = support_vector_classifier.predict_proba(new_data)
else:
predictions = random_forest_classifier.predict(new_data)
predictions_proba = random_forest_classifier.predict_proba(new_data)
f = open("output.txt", "w+")
for i in range(len(predictions.tolist())):
print("id: ", i, "probability: ", predictions_proba.tolist()[i][1], "exit: ", predictions.tolist()[i], file=open("output.txt", "a"))
【问题讨论】:
下面的解决方案能解决您的问题吗? 【参考方案1】:如果我没有错过,你忘了扩展你的测试集。 因此,您还需要对其进行缩放。请注意,您应该只是改造它,不要再次安装它。见下文。
x_test = sc_x.transform(x_test)
【讨论】:
我应该把它放在什么地方?那里:x_test = sc_x.transform(x_test)? 我应该对 new_data(我希望进行预测的数据集)做同样的事情吗? 是的,该模型将评分的所有数据都需要使用相同的缩放器 (sc_x) 进行缩放,因为您的所有参数都是根据缩放的训练数据计算的。【参考方案2】:我同意@e_kapti,还要检查召回率和准确率的公式,您可以考虑改用 F1 分数(https://en.wikipedia.org/wiki/F1_score)。
Recall = TP / (TP+FN) Accuracy = (TP + TN) / (TP + TN + FP + FN) 其中 TP, FP, TN, FN 是真阳性、假阳性、真阴性和假的数量负面的,分别。
【讨论】:
以上是关于召回率 = 0 的 SVM 和随机森林的主要内容,如果未能解决你的问题,请参考以下文章