超参数划分数据集偏差与方差正则化

Posted 2023-01-30 劳埃德·福杰

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了超参数划分数据集偏差与方差正则化相关的知识，希望对你有一定的参考价值。

1.超参数(hyperparameters)

参数(Parameters)： $\text{[math]}$ ， $\text{[math]}$ ， $\text{[math]}$ ， $\text{[math]}$ ， $\text{[math]}$ ， $\text{[math]}$ ...

超参数：能够控制参数W,b的参数，是在开始学习之前设置的参数。

比如：学习率 $\text{[math]}$ 、梯度下降循环的数量#iterations、隐藏层数量#hidden layers、每一个隐藏层的隐藏单元数量#hidden units...

2.划分数据集

通常将数据集划分为训练集(train sets)、验证集(validation set)、测试集(test sets)。

训练集用来执行训练算法，验证集用来选择表现最好的模型，测试集用来最后评估算法的运行情况。

划分比例：

小数据时代(100~1w条数据)：60%/20%/20%

大数据时代(百万条级别)：验证集和测试集的比例更小，毕竟验证集只是为了测试哪种算法的性能更好一些，测试集是为了评估最后选择的模型的性能。比如，100w条数据，验证集和测试集各1w就够了。

数据更大的话，99.5%/0.25%/0.25%或99.5%/0.4%/0.1%的比例也是可以的。

没有测试集也是可以的。

3.偏差与方差(bias and variance)

偏差(bias)用来描述训练集错误率，高偏差(high bias)意味着高训练集错误率(train set error)，也就是欠拟合(underfitting)。

方差(variance)用来描述对训练集中小波动的敏感度误差，高方差(high variance)意味着低训练集错误率(train set error)和高验证集错误率(validation set error)，两者差距比较大，也就是过拟合(overfitting)。

Train set error	1%	15%	15%	0.5%
validation set error	11%	16%	30%	1%
	high variance	high bias	high variance, high bias	low variance, low bias

解决高偏差(high bias)：训练更大的网络(含有更多的隐藏层)，尝试更先进的优化算法。

解决高方差(high variance)：准备更多的数据来训练，采用正则化(regularization)来减少过拟合。

4.正则化(Regularization)

以逻辑回归为例

$\text{[math]}$ ， $\text{[math]}$ ，l表示第几层

在一个隐藏单元上实现正则化

L2正则化： $\text{[math]}$ ，λ是正则化参数(regularization parameter)。

L1正则化： $\text{[math]}$ 。

$\text{[math]}$ 是欧几里得范数(Euclidean norm)，即距离范数，指在m维空间中两个点之间的真实距离。

$\text{[math]}$ 是绝对值范数(Absolute-value norm)， $\text{[math]}$ 表示输入特征x的个数。

在整个神经网络实现正则化

$\text{[math]}$

$\text{[math]}$ ，弗罗贝尼乌斯范数(Frobenius norm)：矩阵各项元素平方的和再开根。

$\text{[math]}$ 矩阵的维度为( $\text{[math]}$ , $\text{[math]}$ )， $\text{[math]}$ 表示神经网络第l层所包含的隐藏单元数量， $\text{[math]}$ 表示前一层的单元数量。结合上面逻辑回归的公式，可知公式中x的维度为( $\text{[math]}$ ,1)。在每一个隐藏单元中，对于前一层的 $\text{[math]}$ 个输入，有 $\text{[math]}$ 个对应的参数 $\text{[math]}$ 。