模型中评价指标过多会怎么样

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了模型中评价指标过多会怎么样相关的知识,希望对你有一定的参考价值。

模型评估的分类
模型评估可以分为离线评估和在线评估两大类,

在线评估是指在模型部署上线后,使用线上真实数据对模型进行的评估。

上线推荐模型之后,我们通过 ABTest,先导入一部分流量到模型匹配后的商品页面,让一部分用户看到原来的页面,让另一部分用户中的每个人都看到不一样的商品页面。通过一段时间(如 1 天或 1 周)的观察,如果另一部分用户的点击率或者 购买转化率有提升,我们再决定让这个模型正式上线。

离线评估是指在模型部署上线前对模型进行的验证和评估工作,这个时候如果发现问题,我们可以很方便地对模型的参数进行调整和改进。这也就是我和你讲的,需要在模型上线之前进行的模型验收部分的工作。两种评估方式由于其场景不同,所评估的关注点也不尽相同。

其中,离线评估关注的是模型效果相关的指标,如精准率、KS 等等。

在线评估关注的是业务相关指标,比如新用户的转化率、优惠券的核销率、信贷审核的通过率等等。由于模型的在线评估与业务场景强相关,所以我们的课程重点将放在模型的离线评估上。离线评估又可以分为特征评估和模型评估两大类,接下来,我们先来看模型特征的评估。

模型特征的评估
很多人会认为,模型评估就只评估模型最终的结果,比如召回率这些指标。但我们不能只看模型这个黑盒子的最终结果,同时也要了解这个黑盒子里面的内容,所以,模型特征的评估也是要做的。当然,我们不会检验全部的特征,只会去评估模型中重要性比较高的特征。知道了重要特征有哪些,接下来就是对它们进行评估了。我们一般会对特征自身的稳定性,特征来源的稳定性,以及特征获取的成本进行评估,这都是业务比较关注,并且也是很容易出问题的地方。

首先,对于特征自身的稳定性,我们会使用 PSI 这个指标来判断。 PSI 是指评估某个特征的数据随着时间推移发生变化而不再稳定的指标。简单来说,就是看这个特征是不是稳定的一个指标。如果一个重要特征不够稳定,就会影响模型整体的稳定性,自然也会影响前端业务。

其次,对于特征来源的稳定性,我们主要看特征是从哪里接入的。

如果特征是从集团内部接入的,我们要看它是从哪条业务线获取的,这个业务的稳定性如何,业务方是否有可能收回或者停止共享业务数据;

如果特征接入方是外部公司,我们还要看这个公司是否合规,是否具备完善的技术储备等等

模型的评估
看完了特征的评估,接下来就是我们的重头戏:模型的评估。

模型的评估主要包括三个部分:统计性、模型性能和模型稳定性。

统计性指标
统计性指标指的就是模型输出结果的覆盖度、最大值、最小值、人群分布等指标。我们拿到一个模型,最先看的不是性能指标也不是稳定性,而是统计性指标,它决定了模型到底能不能用。以模型覆盖度为例,它表示模型可以覆盖人群的百分比,它的计算公式是:模型的覆盖度 = 模型可以打分的人数 / 需要模型打分的人数。覆盖度越高,代表模型可以打分的人数越多,也就是说模型可以评估更多人。如果模型覆盖度过低,即使它的性能表现很好,在某些业务场景下模型也不可用。

模型性能评估
模型的性能评估指标就是评估模型效果的指标,它和模型要解决的问题相关,模型要解决的问题可以分成分类问题和回归问题。由此,我们可以把模型分成分类模型和回归模型。接下来,我们就详细说说,针对不同的模型可以使用哪些典型的性能指标。

我们说过,分类模型包括二分类模型和多分类模型。

其中,二分类模型在实际业务中使用比较多,比如,它经常用于判断用户的性别、用户的购买偏好、支付宝的芝麻分、京东的小白信用、微信的支付分等问题。分类模型的性能评价指标主要包括:混淆矩阵、KS、AUC 等等。通过混淆矩阵,我们既可以得到一个模型的精确率、召回率这些指标,从而可以评估一个模型的区分能力,我们也可以计算得到的 TPR、FPR,从而计算出 AUC、KS 等相关指标。因此,混淆矩阵是评估二分类模型的基础工具。

回归模型的性能评价指标主要包括:MAE(平均绝对误差)、MSE(均方误差)、RMSE(均方根误差)、R 方等等。它常用来预测数值,比如房价和股价的预测就是典型的回归模型应用。

模型的稳定性
即判断模型输出结果,是否会随着时间推移,而发生较大变化不再稳定的指标,模型的稳定性会直接影响模型的结果。比如在风控场景下,如果风控模型不够稳定,对于用户风险判断的结果就会发生较大变化。这个时候,我们需要实时调整风控策略,同时也要注意调整后造成决策不合理的情况。对于模型的稳定性,我们主要使用 PSI 进行评估。
参考技术A 模型中评价指标过多的后果:在建模过程中,由于偏差过大导致的模型欠拟合以及方差过大导致的过拟合的存在,为了解决这两个问题,我们需要一整套方法及评价指标。其中评估方法用于评估模型的泛化能力,而性能指标则用于评价单个模型性能的高低。

数学建模评价类——Topsis模型

参考技术A 数学建模中有一类非常常见的问题:选择最优方案,被称为评价类问题。例如:携程、美团和飞猪,三个旅游平台哪个更适合新手旅游选择?苏州、杭州、南京哪个更适合端午节出游?班里哪位同学获得奖学金等等。要做出选择,首先需要知道有哪些评价指标,继续以选择旅游地为例,可以通过知网搜索相关文章or组内头脑风暴or利用网络搜索引擎资源,得到大家选择旅游地的考虑标准:风景、人文、拥挤程度等。在每个评价指标维度给方案评分,设定总分为5。“上有天堂,下有苏杭”可以认为苏州杭州的风景很好,于是给他们5分风景分,人文上南京作为六朝古都历史底蕴浓厚给5分。这类评价问题里每个方案的得分数据都是自己根据资料给出的,更适合层次分析法。而是否获得奖学金,可以根据各科成绩来筛选,数据客观存在,就可以使用下文提到的topsis方法。

TOPSIS法(Technique for Order Preference by Similarity to Ideal Solution) 可翻译为逼近理想解排序法,国内常简称为优劣解距离法。TOPSIS 法是一种常用的利用 原始数据 进行综合评价的方法,其基本原理,是通过检测评价对象与 最优解、最劣解 的距离来进行排序,若评价对象最靠近最优解同时又最远离最劣解,则为最好;否则不为最优。其中最优解的各指标值都达到各评价指标的最优值。最劣解的各指标值都达到各评价指标的最差值。以奖学金为例,假定是否获得奖学金只与语文、数学、英语这三科的成绩相关,你的成绩是80,90,100,而最好的成绩是100,100,100,最差的成绩是50,60,50。则你和最优解的距离为  ;和最劣解的距离为 。

step1:指标正向化。

具体在评价时会遇到的指标可以分成四类,①极大型指标,也称为效益型指标,数值越大越好,包括成绩、收入等②极小型指标,也称为成本型指标,数值越小越好,包括开销、死伤人数等③中间型指标,数值有一个中间的最优点,如ph值越接近7越好,血压越接近理想血压(收缩压120 mmHg,舒张压80 mmHg)越好④区间型指标,数值在一个区间内最好。如城市最优人口规模在1000到1200万之间(数字仅用来举例,无实际意义)。

根据不同类型的指标需要按照不同的公式进行正向化处理,即把所有指标转化为极大型。

极小型转化最容易,直接用max-x即可,若变量x为正数,也可直接取倒数。如开销最大是3000,x变量对应的开销为1000,转化后的值应为3000-1000=2000,或者直接取倒数为1/1000。

中间型转化公式为 以ph值为例,最优解 为7。一组数据有7,8,9三个变量,则 , , 。所以 。取i=2,原始数据为8,转化后位1-(8-7)/2=1/2。

区间型转化较为复杂,若 为一组中间型指标序列,且最佳的区间为[a,b],那么正向化的公式如下:

以人体体温为例,原始数据为35.2,35.8,36.6,37.1,37.8,38.4。最优区间为36到37,则a=36,b=37,M=max(36-35.2,38.4-37)=1.4,代入上述公式即可得到转换后的数据。

step2:正向化矩阵标准化

假设有n个要评价的对象,m个正向化的评价指标,则可以构建正向化矩阵。 为第一个对象在第二个评价指标上正向化之后的得分。

将标准化矩阵记为Z,则其中的每一个元素都等于对应矩阵X中的元素取值除以所在列元素的平方和开根号,即 。

step3:计算得分并归一化

n个评价对象,m个评价指标的标准化矩阵如下:

定义最大值为每列元素最大值的集合

定义最小值为每列元素最小值的集合

则第i个评价对象与最大值的距离为j个指标分别与最大值计算距离之后的求和:

同理,第i个评价对象与最小值的距离为j个指标分别与最小值计算距离之后的求和:

那么,第i个评价对象未归一化的得分为 ,即z与最小值的距离除以z与最大值的距离和z与最小值的距离之和。因为距离都是非负的,很明显 取值在0和1之间, 越大, 越大,即越接近最优解。

归一化之后的得分为 ,此处应满足 。

归一化和标准化本质上都是为了消去量纲的影响,结果归一化之后更容易比较大小。

得到所有方案的得分之后,建议对排序后的分数进行可视化展示,可利用excel绘制柱形图。

按照上图所示,方案5的得分最高,所以应选择方案5。

上述过程为基本topsis模型,该模型默认所有指标的权重相同,可以利用层次分析法或熵权法确定指标权重,构建带权重的topsis模型。

资料来源:

以上资料来源于b站(up主:数学建模学习交流)https://www.bilibili.com/video/BV1gJ411k7X4from=search&seid=6343799996011307859。

感谢up主的整理,视频讲述很详细,适合新手入门哦~

以上是关于模型中评价指标过多会怎么样的主要内容,如果未能解决你的问题,请参考以下文章

分类指标

模型评价指标总结

机器学习中的评价指标

详解目标检测模型的评价指标及代码实现

【金融风控】风险模型评价指标

回归任务中的评价指标之MSE,RMSE,MAE,R-Squared,MAPE