牛客网算法八股刷题系列卷积函数随机梯度下降ReLU

Posted 2023-04-01 静静的喝酒

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了牛客网算法八股刷题系列卷积函数随机梯度下降ReLU相关的知识，希望对你有一定的参考价值。

牛客网算法八股刷题系列——卷积函数、随机梯度下降、ReLU

题目描述
- 正确答案： $\\mathcal B$
- 题目解析

题目描述

本节并不过多针对题目中的非线性，而更多关注随机梯度下降、卷积运算自身以及卷积运算与全连接运算在动机上的差异性。

下列哪一项在神经网络中引入了非线性 $?(\\quad)$

$\\mathcal A \\quad$ 随机梯度下降

$\\mathcal B\\quad$ 修正线性单元 $(\\textReLU)$

$\\mathcal C \\quad$ 卷积函数

$\\mathcal D \\quad$ 以上都不正确

正确答案： $\\mathcal B$

题目解析

$\\mathcal A \\quad$ 随机梯度下降 $(\\textStochastic Gradient Descent,SGD)$ 是梯度下降法( $\\textGradient Descent,GD$ )系列的一种算法表达。

在梯度下降法的基础上，随机梯度下降的核心操作在于：每次算法迭代中的采样操作。

关于机器学习算法中的代价函数 $\\mathcal J$ 可以分解成每个样本的损失函数总和：
已知数据集合 $\\mathcal D = \\x^(i),y^(i)\\_i=1^N$ 并以此作为‘真实分布/真实模型’ $\\mathcal P_data$ 的参考。在极大似然估计与最大后验概率估计中介绍过，真实模型是客观的，是无法准确得到的分布结果。因而 $\\mathcal D$ 可理解为从真实分布 $\\mathcal P_data$ 中采集出的样本组成的集合。
$\\beginaligned \\mathcal J(\\theta) & = \\mathbb E_x^(i),y^(i) \\in \\mathcal P_data \\mathcal L(x^(i),y^(i);\\theta) \\\\ & = \\frac1N \\sum_i=1^N \\mathcal L(x^(i),y^(i);\\theta) \\endaligned$
其中， $\\mathcal L$ 为损失函数，根据不同的处理任务，可使用不同的损失函数，这里不过多描述。基于梯度下降法，我们需要计算代价函数关于参数 $\\theta$ 的梯度 $\\nabla_\\theta \\mathcal J(\\theta)$ ：
$\\nabla_\\theta\\mathcal J(\\theta) = \\frac1N \\sum_i=1^N \\nabla_\\theta \\mathcal L(x^(i),y^(i);\\theta)$

关于随机梯度下降，它的底层逻辑是：梯度自身就是期望结果，而期望可以用小规模样本近似估计。针对上式，可以使用牛顿-莱布尼兹公式，将梯度符号与积分号调换位置：
$\\nabla_\\theta\\mathcal J(\\theta) = \\frac1N \\nabla_\\theta \\left[\\sum_i=1^N \\mathcal L(x^(i),y^(i);\\theta)\\right]$
因而上式描述的就是： $N$ 个样本对应损失函数结果期望的梯度。如果样本量 $N$ 足够大，每一次求解梯度的代价(计算量)也是足够高的。

但期望自身是可以使用小规模样本近似估计，针对庞大的数据集合 $\\mathcal D$ ，在迭代过程中均匀抽取小批量( $\\textMiniBatch$ )样本 $\\mathcal D' = \\(x^(i),y^(i))\\_i=1^m \\in \\mathcal D$ ，这个 $m$ 是一个很小的数值，从一到几百。使用这种方式进行训练，其最大的优势是大幅度缩短迭代过程中的计算时长：
$\\begincases \\mathbb E_x^(i),y^(i) \\in \\mathcal D' \\left[\\mathcal L(x^(i),y^(i);\\theta)\\right] \\approx \\mathcal J(\\theta)\\\\ g = \\frac1m \\nabla_\\theta \\left[\\sum_i=1^m \\mathcal L(x^(i),y^(i);\\theta)\\right] \\approx \\nabla_\\theta \\mathcal J(\\theta) \\endcases$
具体执行过程表示如下：

在采样之前，将数据集
牛客网算法八股刷题系列概率密度函数累积分布函数概率质量函数

牛客网算法八股刷题系列——概率密度函数、累积分布函数、概率质量函数
题目描述

以下关于 $\\textPMF$ (概率质量函数)， $\\textPDF$ (概率密度函数)， $\\textCDF$ (累积分布函数)描述错误的是 $(\\quad)$

$\\mathcal A \\quad \\textPDF$ 描述的是连续型随机变量在特定取值空间的概率

$\\mathcal B \\quad \\textCDF$ 是 $\\textPDF$ 在特定区间上的积分

$\\mathcal C \\quad \\textPMF$ 描述的是离散型随机变量在特定取值点的概率

$\\mathcal D \\quad$ 有一个分布的 $\\textCDF$ 函数 $\\mathcal H(a)$ ，则 $\\mathcal H(a) = \\mathcal P(x \\leq a)$

正确答案： $\\mathcal A$

题目解析

该问题中最容易被忽视的点：概率密度函数 $(\\textProbability Density Function,PDF)$ ，它的函数输出值描述的是对应输入事件发生的可能性。
- 但这个可能性不是概率；
- 而概率描述的是函数在某范围内的积分；
- 连续型随机变量取值在任意一点概率均为 $0$ 。
举一个实际例子：一维高斯分布的概率密度函数：
$\\frac1\\sigma \\cdot \\sqrt2\\pi \\exp \\left\\-\\frac(x - \\mu)^2\\sigma^2\\right\\$
它的函数图像表示如下 $(\\mu=0,\\sigma=1)$ ：

由于均值 $\\mu=0$ 的原因，在图像中观察， $x = 0$ 对应的可能性是最高的：
$\\frac1\\sqrt2\\pi \\exp^0 \\approx 0.3989$
但是该点对应的概率 $\\mathcal P(x=0) =0$ ，但并不是说 $x = 0$ 是不可能发生事件。
如何用概率密度函数来描述概率呢？积分。

作为概率密度函数的性质，有：
$\\int_-\\infty^+\\infty f(x) dx = 1$
如果将积分在图像中进行描述，其表示函数图像与坐标轴在某一范围内围成图像的面积。依然以 $x = 0$ 为例，它在图像中的概率结果表示为：

很明显，这仅仅是一个线段。而线段自身没有面积。这也可以说明：连续型随机变量取值在任意一点概率均为 $0$ 。

如果想要描述 $\\mathcal P(-2<x<0)$ 的概率结果，对应在概率密度函数图像中表示为如下形式：
阴影面积部分。

因而它的概率是积分结果，而不是函数值。从另一个角度观察，如果某一个一维高斯分布方差较小，从而出现下图现象：

很明显，如果 $\\textPDF$ 函数结果表示概率值，那么橙色线中 $0$ 对应的函数结果显然超过概率结果上界 $1$ 了，自然也是不合理的。 $\\mathcal A \\quad$ 选项错误。

$\\mathcal B \\quad \\mathcal D\\quad$ 选项中提到了累积分布函数 $(\\textCumulative Distribution Function,CDF)$ ，首先它是概率密度函数的积分，简单来说，它将积分结果映射到了函数值上。

从计算角度来看，概率密度函数是累积分布函数的导数。依然以一维高斯分布为例，它的累积分布函数表示如下：
这里并没有将‘累积分布函数’的公式求解出来，仅通过采样的方式近似求解。
```
import math
import matplotlib.pyplot as plt
import numpy as np

def pdf(mu,sigma,x):
    return (1 / (math.sqrt(2 * math.pi) * sigma)) * math.exp(-1 * (((x - mu) ** 2) / (2 * (sigma ** 2))))

def func(x):
    return math.exp(-1 *(x ** 2))

def erf(x):
    if x > 0:
        x_l = np.arange(0,x,0.01)
        y_l = np.array([func(i) for i in x_l])
    else:
        x_l = np.arange(x,0,0.01)
        y_l = np.array([-1 * func(i) for i in x_l])
    res = (2 / (math.sqrt(math.pi))) * np.trapz(y_l,x_l)
    return res

def cdf(mu,sigma,x):
    input_x = (x - mu) / (sigma * (2 ** 0.5))
    return 0.5 * (1 + erf(input_x))

if __name__ == '__main__':
    mu_0,sigma_0 = 0,1
    mu_1,sigma_1 = 0.8,1.5
    x = list(np.linspace(-6,6,300))
    y = [cdf(mu_0,sigma_0,i) for i in x]
    y_pdf = [pdf(mu_0,sigma_0,i) for i in x]
    plt.plot(x,y,c="tab:orange")
    plt.plot(x,y_pdf,c="tab:blue")
    plt.show()
```
对应函数图像表示如下。其中蓝色线表示概率密度函数；对应的橙色线表示对应的累积分布函数。

$\\mathcal B \\quad$ 选项是累积分布函数的定义；关于 $\\mathcal D \\quad$ 选项，这里以 $a = 1$ 为例，它的概率密度函数的积分结果与累积分布函数结果分别表示如下：

其中红色虚线与 $\\textCDF$ 交点对应的函数值等于阴影部分面积，而阴影部分面积就是 $\\mathcal P(x \\leq a)$ 的概率值。

$\\mathcal C \\quad$ 选项，关于概率质量函数 $(\\textProbability Mass Function,PMF)$ ，它与概率密度函数不同，由于是离散型随机变量，这导致概率质量函数不连续。具体公式表示如下：
$\\ S f_\\mathcal X(x) = \\begincases \\mathcal P(\\mathcal X = x) \\quad x \\in \\mathcal S \\\\ 0 \\quad x \\in \\mathbb R \\backslash \\mathcal S \\endcases$
相关描述为： $\\mathcal S$ 表示随机变量 $\\mathcal X$ 能够取到数值 $x$ 的集合；而 $\\ S \\mathbb R \\backslash \\mathcal S$ 表示实数集合 $\\mathbb R$ 中除去 $\\mathcal S$ 之外的剩余集合。
- 当 $\\mathcal X$ 取集合 $\\mathcal S$ 中的某一具体值 $x$ 时，对应概率为 $\\mathcal P(\\mathcal X = x)$ ；
- 当 $\\mathcal X$ 取集合 $\\ S \\mathbb R \\backslash \\mathcal S$ 中的值时，其对应概率结果必然为 $0$ 。
这意味着概率质量函数的函数值就是该自变量对应的概率值。这也是它与概率密度函数的主要区别。
以上是关于牛客网算法八股刷题系列卷积函数随机梯度下降ReLU的主要内容，如果未能解决你的问题，请参考以下文章

牛客网算法八股刷题系列卷积函数随机梯度下降ReLU

牛客网算法八股刷题系列——卷积函数、随机梯度下降、ReLU

题目描述

正确答案： B \\mathcal B B

题目解析

牛客网算法八股刷题系列概率密度函数累积分布函数概率质量函数

牛客网算法八股刷题系列——概率密度函数、累积分布函数、概率质量函数

题目描述

正确答案： A \\mathcal A A

题目解析

正确答案： $\\mathcal B$

正确答案： $\\mathcal A$