参数统计与非参数统计的联系与区别?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了参数统计与非参数统计的联系与区别?相关的知识,希望对你有一定的参考价值。
区别如下:
1、适用的数据类型不同。
参数统计常用于定距或定比数据,非参数统计常用于仅由一些等级构成的数据,或待分析数据不满足参数检验所要求的假定,因而无法应用参数检验。
2、对参数的假定不同。
参数统计就是需要人们对所提问题中的参数进行估计或检验;而非参数统计所提的问题并不包含参数,也不能用参数检验。
3、对总体依赖程度不同。
在参数统计中,总体的分布形式或分布族需要给定,才能对参数进行估计和检验;而在非参数统计中,则对总体分布不作假设或仅作非常一般性假设,对总体的依赖程度低,而是根据样本来推断总体的特征分布不是参数值。
4、适用的范围不同。
由于每一种具体的参数统计方法都是建立在特定的理论分布基础上的,所以参数统计对所要分析处理的资料都有一定的要求和限制。而非参数统计由于不依赖某种特定的理论分布,因此对资料的条件要求相对宽松,适用范围广。
参数统计与非参数统计的联系:
在统计学中,统计推断的两个最基本的形式为:参数估计和假设检验,其大部分内容是和正态理论相关的,人们称之为参数统计。在参数统计中,总体的分布形式或分布族往往是给定的,而诸如均值和方差的参数是未知的。人们的任务就是对这些参数进行估计或检验。当假定分布成立时,其推断有较高的精度。
扩展资料:
非参数统计方法有以下缺点:
1、由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
2、对于大样本,如不采用适当的近似,计算可能变得十分复杂。
参考资料来源:百度百科-非参数统计
参考资料来源:百度百科-随机变量统计参数
Bagging与Boosting的联系与区别
参考技术A Bagging算法所利用的预测数据就是通过Bootstrap方法得到的,Bootstrap方法是非参数统计上的一种抽样方法,实质就是对观测数据进行抽样,通过新抽样样本对总体分布特征进行推断。例如我们熟知的随机森林算法中不同的分类回归树,所利用的数据集就是通过Boostrap方法重抽样得到的。而利用Boostrap方法所做的好处是避免了做交叉验证时的样本量少的问题。同时重抽样后的数据可以得到相较于原观测数据少的噪声点,所以更能获得好的分类器。Boostrap步骤:
当然Bootstrap方法适合于小样本,难以有效划分训练集和测试集时很有用,在做集成学习中,样本集往往通过Bootstrap方法来获取,倘若样本足够多,那么交叉验证会比Bootstrap更好。
在理解了Bootsrap抽样方法后,Bagging实际就是对重抽样的多个样本集,分别建立一个分类器,进行并行模型训练。由于每个分类器之间相互独立,所以Bagging与只训练一个弱分类器相比,复杂度是相同的,所以这是一个高效的集成算法!利用Bagging的好处是它能在提高准确率、稳定性的同时,通过降低结果的方差,避免过拟合的发生。并且由于利用的Boostrap方法,所以能减少噪音的影响,体现样本真实的分布情况。
Bagging的算法流程为:
通过这个流程可以看出,由于是投票选出最终的预测结果,从而可以获得很高的精度,降低泛化误差,但是弊端就是如果对于某一块,大多数分类器给出了一个错误分类,最终分类的结果也会错误。所以Bagging就没有考虑到对于分类器错分类,或者说性能差的地方做出调整。
那我们在什么时候会利用到Bagging呢? 学习算法不稳定的时候,例如神经网络、kNN算法、线性回归子集选取等,这些都是不稳定的(弱学习算法),如果利用Bagging,则可以增强原算法,倘若原算法本身就有很高的稳定性,使用Bagging可能会适得其反。
随机森林(Random Forest)就是一个很好的利用Bagging的模型,他采用的弱分类器是决策树算法,在此基础上,引入了一个随机属性选择,这使得每个分类器的差异度增加,进而提升集成后的模型泛化能力。这里不对RF展开叙述,读者可参看以下相关参考。
相关参考:
与Bagging一样,Boosting也是集成算法中重要的算法,他与Bagging不同的是,Bagging采取的是并行计算,而Boosting是串行计算,对多个模型预测结果相加得到最终的结果。
在之前我们也说过,Bagging没有考虑在基学习器性能差的地方做出调整,所以Boosting在整个运行机制上做出了改进,具体可描述为:先用基学习器在初始训练集中训练,再根据基学习器表现对预测错的样本赋予更大的权值,从而在后续的学习器训练中受到更多的关注。这样根据基学习器对样本分布做出调整后,再将其训练下一个基学习器,反复分布迭代,从而达到指定值。所以Boosting是基于权值的弱分类器集成!
Boosting的算法流程:
在Boosting的框架基础上,还提出了AdaBoost (Adaptive Boosting), GBDT(Gradient Boosting Decision Tree), XGBoost(eXtreme Gradient Boosting),lightGBM(Light Gradient Boosting Machine)等。其中最具代表性的算法是AdaBoost,结合Boosting的算法流程,Adaboost主要是通过对迭代后的分类器权值与分类器的线性组合作为最终的分类器。其中最关键的就是如何得到权值的更新公式,而这是通过最小化AdaBoost的基本分类器的损失函数得到的。
下面对权值的更新进行推导:
AdaBoost的算法流程:
AdaBoost系列主要解决了: 两类问题、多类单标签问题、多类多标签问题、大类单标签问题,回归问题等,并且在实现过程中简单高效,没有超参数调节,但是Adaboost对于噪音数据和异常数据十分敏感,这种异常样本在迭代中可能会获得较高的权重,影响预测结果。此外,当其中的基分类器是分类回归树时,此时就变成了提升树,这里不阐述。
相关参考:
Bagging和Boosting都是集成学习的两种主流方法,都是由弱分类器融合成强分类器。
以上是关于参数统计与非参数统计的联系与区别?的主要内容,如果未能解决你的问题,请参考以下文章