偏差(Bias)、方差(Variance)、噪声、泛化误差

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了偏差(Bias)、方差(Variance)、噪声、泛化误差相关的知识,希望对你有一定的参考价值。

参考技术A

聊到这几个概念,一般人如果不认真看,还真容易搞混。看上去貌似很高大的术语,其实理解后很简单。接下来,咱们就看下。

是指在同一份数据集上,训练一个模型,模型的预测值和r人工标注值(注意人工标注值并非Ground Truth,人工会有失误,错误)之间的差距。

多个大小规模一样的不同数据集,训练多个不同的模型,每个模型都会有一个预测值,然后算不同预测值的方差。
这里请注意:
方差是衡量不同模型预测结果的一致性,也就是模型的稳定性,如果在不同训练集上,训练出来的多个模型,大家高度一致,那么方差就小,否则方差大。方差小,也说明了,模型在未知数据上的泛化能力强. 当在一份数据上训练模型时,其他训练数据,可能看成验证集,其他数据训练的模型和当前这份高度一致,不就是说明了训练集和验证集指标一样,没有过拟合,泛化能力强

噪声是指标注的错误,为Ground Truth与数据集中的实际标记间的偏差

这几个指标很好理解,结合下面这张图:

方差是体现的未知数据的泛化能力。
偏差是体现的当前训练数据上的 拟合能力。
泛化误差 模型的综合能力。 兼顾 当前数据和未知数据的 综合能力。

<==============================================>

Boosting/Bagging 与 偏差/方差 的关系?

偏差 (bias) 和方差(variance)

参考技术A 偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据。如下图第二行所示。

方差:方差是数据偏离平均数的程度,描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,方差可以表示一组数据在均值周围的聚集密度,如下图右列所示。

标准差:方差开方即得到标准差  standard deviation, The standard deviation tells you how tightly your data is clustered around the mean

协方差:是统计学中使用的一种数值,用于描述两个变量间的线性关系。两个变量的协方差越大,它们在一系列数据点范围内的取值所呈现出的趋势就越相近(换句话说,两个变量的曲线距离彼此较近)。一般来说,两组数值x和y的协方差可以用这个公式计算:1/(n -1)Σ(xi - xavg)(yi - yavg)。其中n为样本量,xi是每个x点的取值,xavg为x的平均值,yi和yavg也类似。Covariance is a measure of how much two random variables vary together. It’s similar to variance , but where variance tells you how a single variable varies, co variance tells you how two variables vary together

方差的计算公式

(s2) = Σ [(xi - x̅)2]/n - 1

s2 = 方差

Σ = 求和,表示后面所有项的和。

xi = 样本观察值,表示各项数据

x̅ =平均值,表示所有数据的平均。

n = 样本大小。就是数据的个数

以上是关于偏差(Bias)、方差(Variance)、噪声、泛化误差的主要内容,如果未能解决你的问题,请参考以下文章

偏差 (bias) 和方差(variance)

偏差(bias)和方差(variance)的区别

偏差(Bias)和方差(Variance)

偏差和方差以及偏差方差权衡(Bias Variance Trade off)

AI数学基础15——Bias(偏差) and Variance(方差)

偏差-方差分解