政策评价模型都有哪些
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了政策评价模型都有哪些相关的知识,希望对你有一定的参考价值。
公共政策评价标准现实的公共政策由于涉及面广,参与人数众多,公共政策过程中的变量因素很多,因此难以设定一个统一的,能被绝大多数学者共同认可的标准。国内外学者在这个问题上也是各有自己的见解。卡尔·帕顿和大卫·沙维奇认为对公共政策设计目标会产生较大影响的四种主要制约因素:技术可行性、政治可行性、经济和财政可行性以及行政可操作性。大部分的评价标准都可归入这四种综合类型,而且分析人员应当在每一种类型中为每一个政策问题确定相关标准(卡尔·帕顿,大卫·沙维奇,2001)。威廉·N.邓恩将评估标准分为六类,即效果、效率、充足性、公平性、回应性和适宜性。陈振明认为政策评估有五个标准,即生产力标准、效益标准、效率标准、公正标准和政策回应度标准(陈振明,2003)。台湾学者林水波、张世贤在《公共政策》中认为,评价标准大致有八个方面,即投入工作量、绩效、效率、充足性、公平性、适当性、执行力和社会发展总指标。张国庆提出了评估的首要标准和次要标准的概念,他认为,对于一项政策的整体评估是建立在若干单元评估基础上的(张国庆,1997)。毛寿龙、李文钊提出,评价政府治理工具的标准主要有:有效性、效率、公平、适应性、可管理性和政治合法性。刘斌,王春福等人认为政策作用结果综合分析包括政策效果、政策效益、政策效应的评价(刘斌,王春福,2000)。对某项政策的评估到底应该持什么样的标准,采用什么样的评估方法,这是学术界争论最多的问题之一。显然,现今还缺乏一种既能评价达到一个特定目标的过程,同时又能评价目标本身是否恰当的政策评估的形式(弗兰克·费希尔,2003)。
2)公共政策评价模型
一般情况下,评价与估计、估价和评估等词是同义词,即使用某种价值观念来分析政策运行结果。评价的中心内容是对某项政策的价值做出判定,主要目的是确定一项政策的价值或社会功效。评价诉求不仅取决于“价值”,还同样取决于“事实”。评价是回顾性的,时间在行动采取之后。隐含在评价报告背后的价值取向具有双重的性质,它们既可以当做结果又可以看做手段(威廉·N.邓恩,2002)。政策评估是一个异常复杂的过程,它所涉及的首要内容是目标的具体化,也就是政府所制定政策的预期结果,但是,既定政策所表述的目标常常是模糊不清或者是模棱两可的
(2)侧面影响模型(side effects model)。一项政策实施后将会在目标领域之内、目标领域之外出现许多预料不到或不希望出现的结果。其中,“非预期的侧面影响”可能是评估者最为关注的,如果能够评价的就给予评价(如目标领域内取得的结果);不能评价的那些则列举出来,留给决策者(或其他用户)自行评价。
(3)自由目标评估模型(goal free evaluation model)。让评估者在没有任何目标约束的条件下开展评估,全面考察政策实施带来的各种影响,不论它们是预期的,还是非预期的。
(4)综合评估模型(comprehensive evaluation model)。评价一项政策的成败、优劣,仅仅看它取得的最终结果,有失偏颇。而将政策的前期准备、落实、取得成果三个阶段都纳入评估范围的模型就是这里所说的综合评估模型。在评估过程中,对上述三个阶段都要进行“描述”(description)和“判断”(judgement)。需要“描述”的内容有两项:各阶段的目标和现实情况。判断首先要明确评估标准,然后将目标、现实情况与之进行比较,进而得出评估结论。
(5)“用户导向模型”(client-oriented model)。指的是“政策用户”导向,而不是“报告用户”导向。只有按照政策用户的需求进行评估,才可能将公众意见反映到评估结论中,进而影响下一步决策。此外,由于种种原因(如政策的外部效应、政策的扭曲、同一政策在不同制度环境下的不同效果等),政策的目标用户与实际用户往往是不一致的,用户的定位点应该是实际用户而非目标用户。
(6)“相关利益人模型”(stakeholder model)。此模型是在“用户导向模型”的基础上发展出来的,评估者必须对相关利益人的需求、关注点十分敏感,把握得非常准确,否则调研工作很难进行。评估者与被调查者对问题的认识不可能完全一致,相差甚远也不足为奇。因此,评估者在调研过程中,需要不断调整原定计划(如修改样本、重新设计调查问卷等),使评估报告能够充分反映相关利益人的真实想法。 参考技术A 回答
一般情况下,评价与估计、估价和评估等词是同义词,即使用某种价值观念来分析政策运行结果。评价的中心内容是对某项政策的价值做出判定,主要目的是确定一项政策的价值或社会功效。评价诉求不仅取决于“价值”,还同样取决于“事实”。评价是回顾性的,时间在行动采取之后。隐含在评价报告背后的价值取向具有双重的性质,它们既可以当做结果又可以看做手段(威廉·N.邓恩,2002)。政策评估是一个异常复杂的过程,它所涉及的首要内容是目标的具体化,也就是政府所制定政策的预期结果,但是,既定政策所表述的目标常常是模糊不清或者是模棱两可的(2)侧面影响模型(side effects model)。一项政策实施后将会在目标领域之内、目标领域之外出现许多预料不到或不希望出现的结果。其中,“非预期的侧面影响”可能是评估者最为关注的,如果能够评价的就给予评价(如目标领域内取得的结果);不能评价的那些则列举出来,留给决策者(或其他用户)自行评价。(3)自由目标评估模型(goal free evaluation model)。让评估者在没有任何目标约束的条件下开展评估,全面考察政策实施带来的各种影响,不论它们是预期的,还是非预期的。(4)综合评估模型(comprehensive evaluation model)。评价一项政策的成败、优劣,仅仅看它取得的最终结果,有失偏颇。而将政策的前期准备、落实、取得成果三个阶段都纳入评估范围的模型就是这里所说的综合评估模型。在评估过程中,对上述三个阶段都要进行“描述”(description)和“判断”(judgement)。需要“描述”的内容有两项:各阶段的目标和现实情况。判断首先要明确评估标准,然后将目标、现实情况与之进行比较,进而得出评估结论。(5)“用户导向模型”(client-oriented model)。指的是“政策用户”导向,而不是“报告用户”导向。只有按照政策用户的需求进行评估,才可能将公众意见反映到评估结论中,进而影响下一步决策。此外,由于种种原因(如政策的外部效应、政策的扭曲、同一政策在不同制度环境下的不同效果等),政策的目标用户与实际用户往往是不一致的,用户的定位点应该是实际用户而非目标用户。(6)“相关利益人模型”(stakeholder model)。此模型是在“用户导向模型”的基础上发展出来的,评估者必须对相关利益人的需求、关注点十
分敏感,把握得非常准确,否则调研工作很难进行。评估者与被调查者对问题的认识不可能完全一致,相差甚远也不足为奇。因此,评估者在调研过程中,需要不断调整原定计划(如修改样本、重新设计调查问卷等),使评估报告能够充分反映相关利益人的真实想法。
R语言︱机器学习模型评价指标+(转)模型出错的四大原因及如何纠错
笔者寄语:机器学习中交叉验证的方式是主要的模型评价方法,交叉验证中用到了哪些指标呢?
交叉验证将数据分为训练数据集、测试数据集,然后通过训练数据集进行训练,通过测试数据集进行测试,验证集进行验证。
模型预测效果评价,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量。
只有在非监督模型中才会选择一些所谓“高大上”的指标如信息熵、复杂度和基尼值等等。
其实这类指标只是看起来老套但是并不“简单”,《数据挖掘之道》中认为在监控、评估监督模型时还是一些传统指标比较靠谱,例如平均绝对误差(MAE)、平均平方差(MSE)、标准平均方差(NMSE)和均值等,计算简单、容易理解;
三者各有优缺点,就单个模型而言,
——————————————————————————
相关内容:
——————————————————————————
1、绝对误差与相对误差
绝对误差(AbsoluteError)=原值-估计值
相对误差(RelativeError)=(原值-估计值)/原值
2、平均绝对误差(MeanAbsoluteError , MAE)
平均绝对误差=︱原值-估计值︱/n
其中n代表数据个数,相当于误差绝对值的加权平均值。
由于预测误差有正有负,为了避免正负相抵消,故取误差的绝对值进行综合并取其平均数,这是误差分析的综合指标法之一。
优缺点:虽然平均绝对误差能够获得一个评价值,但是你并不知道这个值代表模型拟合是优还是劣,只有通过对比才能达到效果;
3、均方误差(MeanSquaredError , MSE)≈方差
跟方差一样,均方误差是预测误差平方之和的平均数,它避免了正负误差不能相加的问题。
由于对误差进行了平方,加强了数值大的误差在指标中的作用,从而提高了这个指标的灵敏性,是一大优点。均方误差是误差分析的综合指标法之一。
优缺点:均方差也有同样的毛病,而且均方差由于进行了平方,所得值的单位和原预测值不统一了,比如观测值的单位为米,均方差的单位就变成了平方米,更加难以比较。
4、均方根误差(RootMeanSquaredError , RMSE)≈标准差
这是均方误差的平方根,代表了预测值的离散程度,也叫标准误差,最佳拟合情况为。均方根误差也是误差分析的综合指标之一。
优点:标准化平均方差对均方差进行了标准化改进,通过计算拟评估模型与以均值为基础的模型之间准确性的比率,标准化平均方差取值范围通常为0~1,比率越小,说明模型越优于以均值进行预测的策略,
NMSE的值大于1,意味着模型预测还不如简单地把所有观测值的平均值作为预测值,
缺点:但是通过这个指标很难估计预测值和观测值的差距,因为它的单位也和原变量不一样了,综合各个指标的优缺点,我们使用三个指标对模型进行评估。
5、平均绝对百分误差(MeanAbsolute PercentageError , MAPE)≈标准差
跟上面的均方根误差有点相似。
6、混淆矩阵(Confusion Matrix)
对角线元素=分类器正确识别的百分率,而非对角线元素=错误判断的百分率。
混淆矩阵表 | 预测类 | ||
类=1 | 类=0 | ||
实际类 | 类=1 | A | B |
类=0 | C | D |
7、受试者工作特性(Receiver Operating Characteristic,ROC)曲线
一种非常有效的模型评价方法,可为选定临界值给出定量提示。
该曲线下的积分面积(Area)大小与每种方法优劣密切相关,反映分类器正确分类的统计概率,其值越接近1说明该算法效果越好。
可以用ROCR包来实现,可参考博客( R语言︱ROC曲线——分类器的性能表现评价)
分类器算法最后都会有一个预测精度,而预测精度都会写一个混淆矩阵,所有的训练数据都会落入这个矩阵中,而对角线上的数字代表了预测正确的数目,即True Positive+True Nagetive。
同时可以相应算出TPR(真正率或称为灵敏度)和TNR(真负率或称为特异度)。
我们主观上希望这两个指标越大越好,但可惜二者是一个此消彼涨的关系。除了分类器的训练参数,临界点的选择,也会大大的影响TPR和TNR。有时可以根据具体问题和需要,来选择具体的临界点。
————————————————————————————————————
(转)模型出错的四大原因及如何纠错
可供选择的机器学习模型并不少。我们可以用线性回归来预测一个值,用逻辑回归来对不同结果分类,用神经网络来对非线性行为建模。
我们建模时通常用一份历史数据让机器学习模型学习一组输入特性的关系,以预测输出。但即使这个模型能准确预测历史数据中的某个值,我们怎么知道它是否能同样准确地预测新的数据呢?
简而言之,如何评估一个机器学习模型是否真的“好”呢?
在这篇文章里,我们将介绍一些看似很好的机器学习模型依然会出错的常见情况, 讨论如何用偏差(bias)vs 方差 (variance),精确率 (precision)vs 召回率(recall)这样的指标来评估这些模型问题, 并提出一些解决方案以便你在遇到此类情况时使用。
高偏差还是高方差
检验一个机器学习模型时要做的第一件事就是看是否存在“高偏差(High Bias)”或“高方差(High Variance)”。
高偏差指的是你的模型对实验数据是否“欠拟合(underfitting)”(见上图)。高偏差是不好的,因为你的模型没有非常准确或者有代表性地反映输入值和预测的输出值之间的关系, 而且经常输出高失误的值(例如模型预测值与真实值之间有差距)。
高方差则指相反情况。出现高方差或者“过拟合”时, 机器学习模型过于准确,以至于完美地拟合了实验数据。这种结果看上去不错,但需引起注意,因为这样的模型往往无法适用于未来数据。所以尽管模型对已有数据运行良好,你并不知道它在其他数据上能运行得怎样。
那怎样才能知道自己的模型是否存在高偏差或是高方差呢?
一种直接了当的方法就是把数据一分为二:训练集和测试集。例如把模型在 70% 的数据上做训练,然后用剩下的 30% 数据来测量失误率。如果模型在训练数据和测试数据上都存在着高失误,那这个模型在两组数据都欠拟合,也就是有高偏差。如果模型在训练集上失误率低,而在测试集上失误率高,这就意味着高方差,也就是模型无法适用于第二组数据。
如果模型整体上在训练集(过往数据)和测试集(未来数据)上都失误率较低,你就找到了一个“正好”的模型,在偏差度和方差度间达到了平衡。
低精确率还是低召回率
即使机器学习模型准确率很高,也有可能出现其他类型的失误。
以将电子邮件分类为垃圾邮件(正类别 positive class)和非垃圾邮件(负类别 negative class)为例。99% 的情况下, 你收到的邮件都并非垃圾邮件,但可能有1% 是垃圾邮件。假设我们训练一个机器学习模型,让它学着总把邮件预测为非垃圾邮件(负类别), 那这个模型 99% 的情况下是准确的,只是从未捕获过正类别。
在这种情况下,用两个指标——精准率和召回率来决定究竟要预测多少百分比的正类别就很有帮助了。
精准率是测量正类别多常为真, 可以通过计算“真正(true positive, 例如预测为垃圾邮件且真的为垃圾邮件)”与“真负(true negative, 例如预测为垃圾邮件但事实并非如此)”总和中“真正”的个数而得出。
召回率则用来测量实际上的正类别多常被准确预测, 以计算真正与假负(false negative, 例如预测邮件为非垃圾邮件,但事实上邮件是垃圾邮件)的总和里有多少个真正而得出。
另一种理解精确率与召回率区别的方法是,精确率测量的是对正类别的预测中有多少比例成真,而召回率则告诉你预测中多常能真正捕获到正类别。因此,当正类别预测为真的情况很少时, 就出现了低精确率,当正类别很少被预测到的时候,就出现了低召回率。
一个良好的机器学习模型目标在于,通过试图最大化“真正”的数量以及最小化“假负”和“假正”的数量来实现精确率与召回率的平衡(如上图所示)。
5 种改进模型的方法
如果模型面临高偏差 vs. 高方差的问题,或者在精确率和召回率之间难以平衡,有几种策略可以采用。
比如机器学习模型出现高偏差时,你可以试试增加输入特征(input feature)的数量。上文已讨论过,高偏差出现于模型对背后的数据欠拟合时,在训练集和测试集都会出现高失误率。如果把模型的失误以基于输入特征个数的函数画出(见上图), 我们发现特征越多,模型的拟合度越好。
同理,对于高方差,你可以减少输入特征的数量。如果模型对训练数据过拟合,有可能是你用了太多特征,减少输入特征的数量会使模型对测试或者未来数据更灵活 。同样,增加训练样本的数量对高方差也是有益的, 这会帮助机器学习算法建出一个更通用的模型。
对要平衡低精确率与低召回率的情况,你可以调整区分正负类别的概率临界值(probability threshold)。对低精确率可以提高概率临界值,以使模型在指定正类别时更为保守。反之,遇到低召回率时可以降低概率临界值,以能更常预测到正类别。
经过足够迭代,就很有可能找到一个能平衡偏差与方差,精确率与召回率的合适的机器学习模型了。
以上是关于政策评价模型都有哪些的主要内容,如果未能解决你的问题,请参考以下文章