对比分析偏差率的五个常见疑问
Posted 麦哲思科技任甲林
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了对比分析偏差率的五个常见疑问相关的知识,希望对你有一定的参考价值。
在实践中经常遇到客户搜集了工期偏差率、工作量偏差率的数据,偏差率=(计划-实际)/实际,分析这一类的度量数据有如下的五个常见疑问:
问题1:哪个项目的偏差率更大?
问题2:两类项目相比,哪一类项目估算准确率更高?
问题3:两类项目相比,哪一类项目不同项目之间估算水平更接近?
问题4:是否可以用变异系数比较不同类项目的相对估算偏差大小?
问题5:偏差率是否可以画控制图进行分析?
问题1:哪个项目的偏差率更大?
由于偏差率有正负之分,并非项目A偏差率10%大于项目B的偏差率-15%,就说明项目A更差,此时,其实我们关注的是绝对值,应该10%与15%相比,而非10%与-15%相比,此时我们才能得出一个合理的结论。
问题2:两类项目相比,哪一类项目估算准确率更高?
答:
两个年度,两组不同类型项目的偏差率进行比较时,由于偏差率有正负,均值可能接近零,因为正负的偏差率互相抵消了,此时比较偏差率的均值很可能得出错误的判断,此时应该比较偏差率绝对值的均值!
问题3:两类项目相比,哪一类项目不同项目之间估算水平更接近?
答:
此时比较两组数据的标准差大小即可。标准差代表了相当于均值的总体偏离程度。标准差越大,数据分布越离散,偏差率差别越大,估算越不准确。标准差越小,偏差率差别越小,估算越准确。
此时不能比较偏差率绝对值的标准差大小。
问题4:是否可以用变异系数比较不同类项目的相对估算偏差大小?
答:
变异系数也称为离散系数,通常记为CV, CV=ABS(标准差/均值)*100%,CV越大相对越离散。当均值接近0时,对标准差的差别越敏感,当均值等于0时,该统计量没有实际意义了。CV值的刻度虽然是定比刻度,但是它是用来比较多组数据之间的相对离散程度的,只有当进行比较时,其数值才有意义,CV值本身的大小没有严格的标准,不存在绝对的好坏之分。有业内的经验数据供参考:
经验数据1:一个是 0-15%小变异 16%到35%中等变异,大于36%高度变异。
经验数据2:小于10%弱变异,10%到100%中等变异,大于100%强变异。
在特定的某些领域,存在CV值的行业标杆数据。如我国卫生行业标准 WS/T 406-2012 《临床血液学检验常规项目分析质量要求》中对批内精密度检测要求的变异系数为:
对偏差率而言,我们的目标是希望偏差率=0,如果实际偏差率的平均值等于0或接近0时,可以将估算偏差率统统加上某个值,让其脱离0值附近,再进行变异系数的比较。这种处理等于标准差没有变化,均值增加了,CV值都变小了,CV值的相对顺序没有发生改变,可以进行排序比较。
那是否可以比较偏差率绝对值的变异系数大小呢?不可以!因为其代表的含义发生了改变。
问题5:偏差率是否可以画控制图进行分析?
答:
偏差率可以画控制图进行分析。但是需要注意如果是同一个项目的不同时间段的偏差率可能存在自相关性,即上一个周期的偏差率与下一个周期的偏差率存在相关性。此时,不适合直接对偏差率画控制图进行分析,而可以对其移动极差画控制图进行分析。
此时对于偏差率绝对值画控制图没有实际意义。
以上是关于对比分析偏差率的五个常见疑问的主要内容,如果未能解决你的问题,请参考以下文章
R语言决策树bagging随机森林模型在训练集以及测试集的预测结果(accurayF1偏差Deviance)对比分析计算训练集和测试集的预测结果的差值来分析模型的过拟合(overfit)情况
R语言广义线性模型函数GLMglm函数构建泊松回归模型(Poisson regression)输出提供偏差(deviances)回归参数和标准误差以及系数的显著性p值
R语言构建logistic回归模型:模型系数(model coefficient)模型总结信息(summary)模型评估(偏差deviance计算伪R方计算( pseudo R-squared)