获取预测模型在测试集中预测错误的数据样本

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了获取预测模型在测试集中预测错误的数据样本相关的知识,希望对你有一定的参考价值。

获取预测模型在测试集中预测错误的数据样本

 

你构建了预测模型、模型在训练集和测试集的整体效果也比较均衡、而且你也尝试了许多模型进行学习和构建,总是没有达到预期的效果,那么这个时候你可以把模型预测错误的数据样本抽取出来进行原生态人工的智能进行分析,是否数据标记错误、是否本来某些类别就容易混淆。

 

此处以测试集的数据错分为例,可以举一反三扩展到训练集上去,情况是类似的。

 

# 数据归一化及数据切分

使用standardscaler or minmaxscaler

数据分割使用train_test_split方法

 

# scaler = MinMaxScaler()

scaler = StandardScaler()

features_X_train, features_X_test, target_train, target_test = train_test_split(
    X, y, test_size=0.1, random_state=1,shuffle=True, stratify=labels)

# features_X_train, features_X_test, target_train, target_test = train_test_split(
#     X, y, test_size=0.1, random_state=1,shuffle=True)

features_train = scaler.fit_transform(features_X_train)
features_test = scaler.transform(features_X_test)

 #测试获取比较结果

# test code 
index_list = (np.array([1,1,1]) != np.ar

以上是关于获取预测模型在测试集中预测错误的数据样本的主要内容,如果未能解决你的问题,请参考以下文章

分类评估指标

如何将指数平滑模型预测值获取到 POWER BI/POWER Query 数据集?

统计学习方法-李航 第一章

即使使用训练数据,LIBSVM 也无法准确预测

交叉验证

5.线性回归算法