8. 监督学习的统计理论
Posted starrow
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了8. 监督学习的统计理论相关的知识,希望对你有一定的参考价值。
第2章 监督学习的统计理论
在2018年,2011年诺贝尔经济学奖获得者托马斯·萨金特(Thomas J. Sargent)在世界科技创新论坛上表示,人工智能其实是统计学披上华丽的辞藻。人工智能的研究者当然可以反驳,说萨金特先生的论断片面和不准确。不过,具体到人工智能中的机器学习,许多统计学家在接触后都恍然大悟——种种概念和理论不都是统计学中早已熟悉的吗,只是换了新术语。例如,预测变量被换成输入,响应变量换成输出,定性值换成类别。机器学习和统计学的深厚渊源,使得在介绍监督学习模型前,先用一章奠定其共同的统计理论基础,大有益处。
输入和输出变量在统计学及其应用中的英文名称与旧时中国文人的字号一样多,例如输入变量被称为Independent variable, predictor variable, controlled variable, explainatory variable, covariate, feature等,输出变量被称为Dependent variable, response variable, explained variable, criterion, label等。对此,中文文献常用的有自变量(Independent variable)、特征(Feature)、因变量(Dependent variable)和标签(Label)等。一种名称或有与之相称的语境,如特征之于模式识别;或有在某学科中使用的传统,如经济学习惯将输入和输出变量称为外源(Exogenous)和内源(Endogenous)变量。本书统一采用输入和输出变量,除了用词一致便于阅读和理解,主要是因为“输入变量”和“输出变量”最能说明它们在监督学习中扮演的角色。
离散型随机变量的概率分布可以用累积分布函数(Cumulative distribution function)或概率质量函数(Probability mass function)[[1]]来描述,连续型随机变量的概率分布可以用累积分布函数或概率密度函数(Probability density function)来描述。以上三种函数都可以统称为概率分布函数(Probability distribution function)[[2]]。因为下文既会遇到连续型随机变量(输入变量和回归的输出变量),也会遇到离散型随机变量(分类的输出变量),所以为了方便,常常统一使用概率分布函数,该术语在连续型随机变量的场合指概率密度函数,在离散型随机变量的场合指概率质量函数。同理,统一使用边缘概率分布函数和条件概率分布函数,这些术语在连续型随机变量的场合分别指边缘概率密度函数和条件概率密度函数,在离散型随机变量的场合指边缘概率质量函数和条件概率质量函数。在行文中,往往会省略上述术语的前缀概率和后缀函数。此外,由于对离散变量概率的分析和连续变量概率密度的分析本质上相同,有时也用概率代指概率密度。
[[1]] 有些文献对于离散型随机变量采用分布律这个术语,概率质量函数突出了所指的函数本质,并且与连续型随机变量使用的概率密度函数相呼应,所以本书一律采用该术语。
[[2]] 有些文献单独将累积分布函数称为分布函数。
以上是关于8. 监督学习的统计理论的主要内容,如果未能解决你的问题,请参考以下文章