[深度之眼机器学习训练营第四期]神经网络之模型表示

Posted 2020-11-26 littleorange

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[深度之眼机器学习训练营第四期]神经网络之模型表示相关的知识，希望对你有一定的参考价值。

为什么要用神经网络？

为了获得非线性假设空间，我们引入神经网络模型。之前文章提到，对于分类问题，对数几率回归结合多项式特征可以得到非线性决策边界；而将多项式特则与线性回归结合也可以拟合非线性函数。既然我们已经可以得到非线性假设空间，为什么还要引入神经网络模型呢？这是因为当数据集特征数(d)增大时，高阶多项式项的数量将以几何级数递增，特征空间也随之急剧膨胀。因此，我们需要神经网络模型来解决复杂的非线性问题。

模型表示

如图所示，神经网络模型通常按照一个输入层、若干隐藏层以及一个输出层的顺序组成，每一层由若干神经元组成。相邻两层之间的神经元通过参数（包括权重(W)和偏置(b)）矩阵连接。神经元可以被激活，激活信号沿着参数矩阵逐层向后传递到输出层。这里，我们用(Theta^{(j)}_{k,i})表示连接第(j)层第(i)个神经元与(j+1)层第(k)个神经元的参数，(a_i^{(j)})表示第(j)层中第(i)个激活单元。

技术图片

将输入值从输入层逐层传递到输入层的过程叫做前向传播（Forward Propagation），这也是神经网络模型进行预测的基础。考虑只有一个隐藏层的神经网络：
[ egin{bmatrix}x_0 \x_1 \ x_2 \ x_3 end{bmatrix} ightarrowegin{bmatrix}a_1^{(2)} \ a_2^{(2)} \ a_3^{(2)} \ end{bmatrix} ightarrow h_ heta(x) ]
隐藏层中每个神经元的激活值为：
[egin{aligned} a_1^{(2)} &= g(Theta_{1,0}^{(1)}x_0 + Theta_{1,1}^{(1)}x_1 + Theta_{1,2}^{(1)}x_2 + Theta_{1,3}^{(1)}x_3) \ a_2^{(2)} &= g(Theta_{2,0}^{(1)}x_0 + Theta_{2,1}^{(1)}x_1 + Theta_{2,2}^{(1)}x_2 + Theta_{2,3}^{(1)}x_3) \ a_3^{(2)} &= g(Theta_{3,0}^{(1)}x_0 + Theta_{3,1}^{(1)}x_1 + Theta_{3,2}^{(1)}x_2 + Theta_{3,3}^{(1)}x_3) end{aligned}]

令
[z_k^{(j+1)} = Theta_{k,0}^{(j)}x_0 + Theta_{k,1}^{(j)}x_1 + cdots + Theta_{k,d}^{(j)}x_d]
则
[egin{aligned}a_1^{(2)} = g(z_1^{(2)}) \ a_2^{(2)} = g(z_2^{(2)}) \ a_3^{(2)} = g(z_3^{(2)}) end{aligned}]
那么
[ egin{aligned} h_Theta(x) = a_1^{(3)} = g(Theta_{1,0}^{(2)}a_0^{(2)} + Theta_{1,1}^{(2)}a_1^{(2)} + Theta_{1,2}^{(2)}a_2^{(2)} + Theta_{1,3}^{(2)}a_3^{(2)}) end{aligned} ]
这样，我们就计算出了(h_Theta(x))的值，得到模型的预测结果。

上述过程推广到向量形式：
[egin{aligned}x = egin{bmatrix}x_0 \ x_1 \ vdots \ x_dend{bmatrix},quad z^{(j)} = egin{bmatrix}z_1^{(j)} \ z_2^{(j)} \ vdots \ z_{s_j}^{(j)}end{bmatrix}, quad a^{(j)} = egin{bmatrix}a_1^{(j)} \ a_2^{(j)} \ vdots \ a_{s_j}^{(j)}end{bmatrix}end{aligned}]

[ egin{aligned} z^{(j)} &= Theta^{(j-1)}a^{(j-1)}a^{(j)} &= g(z^{(j)})z^{(j+1)} &= Theta^{(j)}a^{(j)} end{aligned} ]

注意，如果网络模型的第 (j)层有 (s_j)个神经元，而第(j+1)层有(s_{j+1})个神经元，那么参数矩阵的维度（包含偏置项）为(s_{j+1} imes (s_j + 1))。

以上是关于[深度之眼机器学习训练营第四期]神经网络之模型表示的主要内容，如果未能解决你的问题，请参考以下文章