05模型建立与评价

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了05模型建立与评价相关的知识,希望对你有一定的参考价值。

参考技术A 1.认识监督学习与非监督学习

有监督学习:的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。即:利用训练数据集学习一个模型,再用模型对测试样本集进行预测。线性回归算法、BP神经网络算法、决策树、支持向量机、KNN等

无监督学习:自动对输入的资料进行分类或分群,以寻找数据的模型和规律。 (KMeans,DL)

2.模型搭建

2.1切割训练集和测试集

方法有:留出法,交叉验证法,自助法

sklearn中切割数据集的方法为 train_test_split

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)

 train_data:所要划分的样本特征集

train_target: 所要划分的样本结果

test_size :样本占比,如果是整数的话就是样本的数量

random_state: 是随机数的种子。其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你 每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。

stratify: 是为了保持split前类的分布。用了stratify参数,training集和testing集的类的比例是 A:B= 4:1,等同于split前的比例。通常在这种类分布不平衡的情况下会用到stratify。

将stratify=X就是按照X中的比例分配 , 将stratify=y就是按照y中的比例分配 

2.2模型创建

2.2.1逻辑回归 :LogisticRegression,分类模型

逻辑回归模型默认参数:

(1)调用逻辑回归模型

(2)计算训练集和测试集的得分

(3)调参

2.2.2随机森林 :RandomForestClassifier,是决策树集成为了降低决策树过拟合的情况

随机森林模型默认参数:

(1)调用随机森林模型

(2) 计算训练集和测试集的得分

(3)调参

2.3输出预测结果

一般监督模型在sklearn里面有个predict能输出预测标签,predict_proba则可以输出标签概率

2.4模型评估

回归模型的评估:平均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Squared Error,MSE)、R-square(决定系数)、Adjusted R-Square (校正决定系数)、交叉验证(Cross-Validation)

分类模型的评估:准确率、精确率、召回率、f1_score,混淆矩阵,ks,ks曲线,ROC曲线,psi等

(1)交叉验证是 k 折交叉验证(k-fold cross-validation),其中 k 是由用户指定的数字,通常取 5 或 10。

(2)混淆矩阵

准确率(precision)度量的是被预测为正例的样本中有多少是真正的正例

召回率(recall)度量的是正类样本中有多少被预测为正类

(3)ROC曲线

ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响,有助于选择最佳的阈值。ROC曲线越靠近左上角,模型的查全率就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其假正例和假反例总数最少。ROC曲线下面所包围的面积越大越好

以上是关于05模型建立与评价的主要内容,如果未能解决你的问题,请参考以下文章

R数据分析:生存数据预测模型的建立和评价timeROC与决策曲线

数学建模比赛论文的基本结构

数学建模试题:请你建立合理的数学模型,设计一个全面而有效的评价生物多样性 的指标。拜托大家看一下

GIS在地质灾害危险性评估与灾后重建中的实践技术应用及python机器学习灾害易发性评价模型建立与优化

数学建模笔记——评价类模型之熵权法

评价分类与预测算法的指标