第二周：神经网络的编程基础(Basics of Neural Network programming)

Posted 2022-11-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第二周：神经网络的编程基础(Basics of Neural Network programming)相关的知识，希望对你有一定的参考价值。

第二周：神经网络的编程基础(Basics of Neural Network programming)

文章目录

第二周：神经网络的编程基础(Basics of Neural Network programming)

2.1 二分类(Binary Classification)
2.2 逻辑回归(Logistic Regression)
2.3 逻辑回归的代价函数（Logistic Regression Cost Function）
2.4 梯度下降法（Gradient Descent）
2.5 导数（Derivatives）
2.6 更多的导数例子（More Derivative Examples）
2.7 计算图（Computation Graph）
2.8 使用计算图求导数（Derivatives with a Computation Graph）
2.9 逻辑回归中的梯度下降（Logistic Regression Gradient Descent）
2.10 m 个样本的梯度下降(Gradient Descent on m Examples)
2.11 向量化(Vectorization)
2.12 向量化的更多例子（More Examples of Vectorization）
2.13 向量化逻辑回归(Vectorizing Logistic Regression)
2.14 向量化 logistic 回归的梯度输出（Vectorizing Logistic Regressions Gradient）
2.15 Python 中的广播（Broadcasting in Python）
2.16 关于 python _ numpy 向量的说明（A note on python or numpy vectors）参考视频：
2.17 Jupyter/iPython Notebooks快速入门（Quick tour of Jupyter/iPython Notebooks）
2.18 （选修）logistic 损失函数的解释（Explanation of logistic regression cost function）

2.1 二分类(Binary Classification)

这周我们将学习神经网络的基础知识，其中需要注意的是，当实现一个神经网络的时候，我们需要知道一些非常重要的技术和技巧。例如有一个包含 $第二周：神经网络的编程基础(Basics$ 个样本的训练集，你很可能习惯于用一个for循环来遍历训练集中的每个样本，但是当实现一个神经网络的时候，我们通常不直接使用for循环来遍历整个训练集，所以在这周的课程中你将学会如何处理训练集。

另外在神经网络的计算中，通常先有一个叫做前向暂停(forward pause)或叫做前向传播(foward propagation)的步骤，接着有一个叫做反向暂停(backward pause) 或叫做反向传播**(backward propagation**)的步骤。所以这周我也会向你介绍为什么神经网络的训练过程可以分为前向传播和反向传播两个独立的部分。

在课程中我将使用逻辑回归(logistic regression)来传达这些想法，以使大家能够更加容易地理解这些概念。即使你之前了解过逻辑回归，我认为这里还是有些新的、有趣的东西等着你去发现和了解，所以现在开始进入正题。

逻辑回归是一个用于二分类(binary classification)的算法。首先我们从一个问题开始说起，这里有一个二分类问题的例子，假如你有一张图片作为输入，比如这只猫，如果识别这张图片为猫，则输出标签1作为结果；如果识别出不是猫，那么输出标签0作为结果。现在我们可以用字母 $第二周：神经网络的编程基础(Basics$ 来表示输出的结果标签，如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L1dLNc8n-1611150677505)(…/images/269118812ea785aee00f6ffc11b5c882.png)]

我们来看看一张图片在计算机中是如何表示的，为了保存一张图片，需要保存三个矩阵，它们分别对应图片中的红、绿、蓝三种颜色通道，如果你的图片大小为64x64像素，那么你就有三个规模为64x64的矩阵，分别对应图片中红、绿、蓝三种像素的强度值。为了便于表示，这里我画了三个很小的矩阵，注意它们的规模为5x4 而不是64x64，如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jiFQ7tgW-1611150677507)(…/images/1e664a86fa2014d5212bcb88f1c419cf.png)]

为了把这些像素值放到一个特征向量中，我们需要把这些像素值提取出来，然后放入一个特征向量 $第二周：神经网络的编程基础(Basics$ 。为了把这些像素值转换为特征向量 $第二周：神经网络的编程基础(Basics$ ，我们需要像下面这样定义一个特征向量 $第二周：神经网络的编程基础(Basics$ 来表示这张图片，我们把所有的像素都取出来，例如255、231等等，直到取完所有的红色像素，接着最后是255、134、…、255、134等等，直到得到一个特征向量，把图片中所有的红、绿、蓝像素值都列出来。如果图片的大小为64x64像素，那么向量 $第二周：神经网络的编程基础(Basics$ 的总维度，将是64乘以64乘以3，这是三个像素矩阵中像素的总量。在这个例子中结果为12,288。现在我们用 $第二周：神经网络的编程基础(Basics$ ，来表示输入特征向量的维度，有时候为了简洁，我会直接用小写的 $第二周：神经网络的编程基础(Basics$ 来表示输入特征向量 $第二周：神经网络的编程基础(Basics$ 的维度。所以在二分类问题中，我们的目标就是习得一个分类器，它以图片的特征向量作为输入，然后预测输出结果 $第二周：神经网络的编程基础(Basics$ 为1还是0，也就是预测图片中是否有猫：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5QlgX3Ly-1611150677509)(…/images/e173fd42de5f1953deb617623d5087e8.png)]

接下来我们说明一些在余下课程中，需要用到的一些符号。

符号定义 ：

$第二周：神经网络的编程基础(Basics$ ：表示一个 $第二周：神经网络的编程基础(Basics$ 维数据，为输入数据，维度为 $第二周：神经网络的编程基础(Basics$ ；

$第二周：神经网络的编程基础(Basics$ ：表示输出结果，取值为 $第二周：神经网络的编程基础(Basics$ ；

$第二周：神经网络的编程基础(Basics$ ：表示第 $第二周：神经网络的编程基础(Basics$ 组数据，可能是训练数据，也可能是测试数据，此处默认为训练数据；

$第二周：神经网络的编程基础(Basics$ ：表示所有的训练数据集的输入值，放在一个 $第二周：神经网络的编程基础(Basics$ 的矩阵中，其中 $第二周：神经网络的编程基础(Basics$ 表示样本数目;

$第二周：神经网络的编程基础(Basics$ ：对应表示所有训练数据集的输出值，维度为 $第二周：神经网络的编程基础(Basics$ 。

用一对 $第二周：神经网络的编程基础(Basics$ 来表示一个单独的样本， $第二周：神经网络的编程基础(Basics$ 代表 $第二周：神经网络的编程基础(Basics$ 维的特征向量， $第二周：神经网络的编程基础(Basics$ 表示标签(输出结果)只能为0或1。
而训练集将由 $第二周：神经网络的编程基础(Basics$ 个训练样本组成，其中 $第二周：神经网络的编程基础(Basics$ 表示第一个样本的输入和输出， $第二周：神经网络的编程基础(Basics$ 表示第二个样本的输入和输出，直到最后一个样本 $第二周：神经网络的编程基础(Basics$ ，然后所有的这些一起表示整个训练集。有时候为了强调这是训练样本的个数，会写作 $第二周：神经网络的编程基础(Basics$ ，当涉及到测试集的时候，我们会使用 $第二周：神经网络的编程基础(Basics$ 来表示测试集的样本数，所以这是测试集的样本数：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-99gnIs90-1611150677511)(…/images/12f602ed40ba90540112ae0fee77fadf.png)]

最后为了能把训练集表示得更紧凑一点，我们会定义一个矩阵用大写 $第二周：神经网络的编程基础(Basics$ 的表示，它由输入向量 $第二周：神经网络的编程基础(Basics$ 、 $第二周：神经网络的编程基础(Basics$ 等组成，如下图放在矩阵的列中，所以现在我们把 $第二周：神经网络的编程基础(Basics$ 作为第一列放在矩阵中， $第二周：神经网络的编程基础(Basics$ 作为第二列， $第二周：神经网络的编程基础(Basics$ 放到第 $第二周：神经网络的编程基础(Basics$ 列，然后我们就得到了训练集矩阵 $第二周：神经网络的编程基础(Basics$ 。所以这个矩阵有 $第二周：神经网络的编程基础(Basics$ 列， $第二周：神经网络的编程基础(Basics$ 是训练集的样本数量，然后这个矩阵的高度记为 $第二周：神经网络的编程基础(Basics$ ，注意有时候可能因为其他某些原因，矩阵 $第二周：神经网络的编程基础(Basics$ 会由训练样本按照行堆叠起来而不是列，如下图所示： $第二周：神经网络的编程基础(Basics$ 的转置直到 $第二周：神经网络的编程基础(Basics$ 的转置，但是在实现神经网络的时候，使用左边的这种形式，会让整个实现的过程变得更加简单：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4wpcVSjb-1611150677512)(…/images/1661e545ce5fd2c27b15444d5b69ec78.png)]

现在来简单温习一下: $第二周：神经网络的编程基础(Basics$ 是一个规模为 $第二周：神经网络的编程基础(Basics$ 乘以 $第二周：神经网络的编程基础(Basics$ 的矩阵，当你用Python实现的时候，你会看到X.shape，这是一条Python命令，用于显示矩阵的规模，即X.shape等于 $第二周：神经网络的编程基础(Basics$ ， $第二周：神经网络的编程基础(Basics$ 是一个规模为 $第二周：神经网络的编程基础(Basics$ 乘以 $第二周：神经网络的编程基础(Basics$ 的矩阵。所以综上所述，这就是如何将训练样本（输入向量 $第二周：神经网络的编程基础(Basics$ 的集合）表示为一个矩阵。

那么输出标签 $第二周：神经网络的编程基础(Basics$ 呢？同样的道理，为了能更加容易地实现一个神经网络，将标签 $第二周：神经网络的编程基础(Basics$ 放在列中将会使得后续计算非常方便，所以我们定义大写的 $第二周：神经网络的编程基础(Basics$ 等于 $第二周：神经网络的编程基础(Basics$ ，所以在这里是一个规模为1乘以 $第二周：神经网络的编程基础(Basics$ 的矩阵，同样地使用Python将表示为Y.shape等于 $第二周：神经网络的编程基础(Basics$ ，表示这是一个规模为1乘以 $第二周：神经网络的编程基础(Basics$ 的矩阵。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HXLLCneD-1611150677513)(…/images/55345ba411053da11ff843bbb3406369.png)]

当你在后面的课程中实现神经网络的时候，你会发现，一个好的符号约定能够将不同训练样本的数据很好地组织起来。而我所说的数据不仅包括 $第二周：神经网络的编程基础(Basics$ 或者 $第二周：神经网络的编程基础(Basics$ 还包括之后你会看到的其他的量。将不同的训练样本的数据提取出来，然后就像刚刚我们对 $第二周：神经网络的编程基础(Basics$ 或者 $第二周：神经网络的编程基础(Basics$ 所做的那样，将他们堆叠在矩阵的列中，形成我们之后会在逻辑回归和神经网络上要用到的符号表示。如果有时候你忘了这些符号的意思，比如什么是 $第二周：神经网络的编程基础(Basics$ ，或者什么是 $第二周：神经网络的编程基础(Basics$ ，或者忘了其他一些东西，我们也会在课程的网站上放上符号说明，然后你可以快速地查阅每个具体的符号代表什么意思，好了，我们接着到下一个视频，在下个视频中，我们将以逻辑回归作为开始。
备注：附录里也写了符号说明。

2.2 逻辑回归(Logistic Regression)

在这个视频中，我们会重温逻辑回归学习算法，该算法适用于二分类问题，本节将主要介绍逻辑回归的Hypothesis Function（假设函数）。

对于二元分类问题来讲，给定一个输入特征向量 $第二周：神经网络的编程基础(Basics$ ，它可能对应一张图片，你想识别这张图片识别看它是否是一只猫或者不是一只猫的图片，你想要一个算法能够输出预测，你只能称之为 $第二周：神经网络的编程基础(Basics$ ，也就是你对实际值 $第二周：神经网络的编程基础(Basics$ 的估计。更正式地来说，你想让 $第二周：神经网络的编程基础(Basics$ 表示 $第二周：神经网络的编程基础(Basics$ 等于1的一种可能性或者是机会，前提条件是给定了输入特征 $第二周：神经网络的编程基础(Basics$ 。换句话来说，如果 $第二周：神经网络的编程基础(Basics$ 是我们在上个视频看到的图片，你想让 $第二周：神经网络的编程基础(Basics$ 来告诉你这是一只猫的图片的机率有多大。在之前的视频中所说的， $第二周：神经网络的编程基础(Basics$ 是一个 $第二周：神经网络的编程基础(Basics$ 维的向量（相当于有 $第二周：神经网络的编程基础(Basics$ 个特征的特征向量）。我们用 $第二周：神经网络的编程基础(Basics$ 来表示逻辑回归的参数，这也是一个 $第二周：神经网络的编程基础(Basics$ 维向量（因为 $第二周：神经网络的编程基础(Basics$ 实际上是特征权重，维度与特征向量相同），参数里面还有 $第二周：神经网络的编程基础(Basics$ ，这是一个实数（表示偏差）。所以给出输入 $第二周：神经网络的编程基础(Basics$ 以及参数 $第二周：神经网络的编程基础(Basics$ 和 $第二周：神经网络的编程基础(Basics$ 之后，我们怎样产生输出预测值 $第二周：神经网络的编程基础(Basics$ ，一件你可以尝试却不可行的事是让 $第二周：神经网络的编程基础(Basics$ 。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hhVN06u2-1611150677513)(…/images/dfb5731c30b81eced917450d31e860a3.png)]

这时候我们得到的是一个关于输入 $第二周：神经网络的编程基础(Basics$ 的线性函数，实际上这是你在做线性回归时所用到的，但是这对于二元分类问题来讲不是一个非常好的算法，因为你想让 $第二周：神经网络的编程基础(Basics$ 表示实际值 $第二周：神经网络的编程基础(Basics$ 等于1的机率的话， $第二周：神经网络的编程基础(Basics$ 应该在0到1之间。这是一个需要解决的问题，因为 $第二周：神经网络的编程基础(Basics$ 可能比1要大得多，或者甚至为一个负值。对于你想要的在0和1之间的概率来说它是没有意义的，因此在逻辑回归中，我们的输出应该是 $第二周：神经网络的编程基础(Basics$ 等于由上面得到的线性函数式子作为自变量的sigmoid函数中，公式如上图最下面所示，将线性函数转换为非线性函数。

下图是sigmoid函数的图像，如果我把水平轴作为 $第二周：神经网络的编程基础(Basics$ 轴，那么关于 $第二周：神经网络的编程基础(Basics$ 的sigmoid函数是这样的，它是平滑地从0走向1，让我在这里标记纵轴，这是0，曲线与纵轴相交的截距是0.5，这就是关于 $第二周：神经网络的编程基础(Basics$ 的sigmoid函数的图像。我们通常都使用 $第二周：神经网络的编程基础(Basics$ 来表示 $第二周：神经网络的编程基础(Basics$ 的值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rjijTgCs-1611150677514)(…/images/7e304debcca5945a3443d56bcbdd2964.png)]

关于sigmoid函数的公式是这样的， $第二周：神经网络的编程基础(Basics$ ,在这里 $第二周：神经网络的编程基础(Basics$ 是一个实数，这里要说明一些要注意的事情，如果 $第二周：神经网络的编程基础(Basics$ 非常大那么 $第二周：神经网络的编程基础(Basics$ 将会接近于0，关于 $第二周：神经网络的编程基础(Basics$ 的sigmoid函数将会近似等于1除以1加上某个非常接近于0的项，因为 $第二周：神经网络的编程基础(Basics$ 的指数如果是个绝对值很大的负数的话，这项将会接近于0，所以如果 $第二周：神经网络的编程基础(Basics$ 很大的话那么关于 $第二周：神经网络的编程基础(Basics$ 的sigmoid函数会非常接近1。相反地，如果 $第二周：神经网络的编程基础(Basics$ 非常小或者说是一个绝对值很大的负数，那么关于 $第二周：神经网络的编程基础(Basics$ 这项会变成一个很大的数，你可以认为这是1除以1加上一个非常非常大的数，所以这个就接近于0。实际上你看到当 $第二周：神经网络的编程基础(Basics$ 变成一个绝对值很大的负数，关于 $第二周：神经网络的编程基础(Basics$ 的sigmoid函数就会非常接近于0，因此当你实现逻辑回归时，你的工作就是去让机器学习参数 $第二周：神经网络的编程基础(Basics$ 以及 $第二周：神经网络的编程基础(Basics$ 这样才使得 $第二周：神经网络的编程基础(Basics$ 成为对 $第二周：神经网络的编程基础(Basics$ 这一情况的概率的一个很好的估计。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bZv778SA-1611150677514)(…/images/f5049dc7ce815b495fbbdf71f23fc66c.png)]

在继续进行下一步之前，介绍一种符号惯例，可以让参数 $第二周：神经网络的编程基础(Basics$ 和参数 $第二周：神经网络的编程基础(Basics$ 分开。在符号上要注意的一点是当我们对神经网络进行编程时经常会让参数 $第二周：神经网络的编程基础(Basics$ 和参数 $第二周：神经网络的编程基础(Basics$ 分开，在这里参数 $第二周：神经网络的编程基础(Basics$ 对应的是一种偏置。在之前的机器学习课程里，你可能已经见过处理这个问题时的其他符号表示。比如在某些例子里，你定义一个额外的特征称之为 $第二周：神经网络的编程基础(Basics$ ，并且使它等于1，那么现在 $第二周：神经网络的编程基础(Basics$ 就是一个 $第二周：神经网络的编程基础(Basics$ 加1维的变量，然后你定义 $第二周：神经网络的编程基础(Basics$ 的sigmoid函数。在这个备选的符号惯例里，你有一个参数向量 $第二周：神经网络的编程基础(Basics$ ，这样 $第二周：神经网络的编程基础(Basics$ 就充当了 $第二周：神经网络的编程基础(Basics$ ，这是一个实数，而剩下的 $第二周：神经网络的编程基础(Basics$ 直到 $第二周：神经网络的编程基础(Basics$ 充当了 $第二周：神经网络的编程基础(Basics$ ，结果就是当你实现你的神经网络时，有一个比较简单的方法是保持 $第二周：神经网络的编程基础(Basics$ 和 $第二周：神经网络的编程基础(Basics$ 分开。但是在这节课里我们不会使用任何这类符号惯例，所以不用去担心。
现在你已经知道逻辑回归模型是什么样子了，下一步要做的是训练参数 $第二周：神经网络的编程基础(Basics$ 和参数 $第二周：神经网络的编程基础(Basics$ ，你需要定义一个代价函数，让我们在下节课里对其进行解释。

2.3 逻辑回归的代价函数（Logistic Regression Cost Function）

在上个视频中，我们讲了逻辑回归模型，这个视频里，我们讲逻辑回归的代价函数（也翻译作成本函数）。

为什么需要代价函数：

为了训练逻辑回归模型的参数参数 $第二周：神经网络的编程基础(Basics$ 和参数 $第二周：神经网络的编程基础(Basics$ 我们，需要一个代价函数，通过训练代价函数来得到参数 $第二周：神经网络的编程基础(Basics$ 和参数 $第二周：神经网络的编程基础(Basics$ 。先看一下逻辑回归的输出函数：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cJxhuqFh-1611150677515)(…/images/4c9a27b071ce9162dbbcdad3393061d2.png)]

为了让模型通过学习调整参数，你需要给予一个 $第二周：神经网络的编程基础(Basics$ 样本的训练集，这会让你在训练集上找到参数 $第二周：神经网络的编程基础(Basics$ 和参数 $第二周：神经网络的编程基础(Basics$ ,，来得到你的输出。

对训练集的预测值，我们将它写成 $第二周：神经网络的编程基础(Basics$ ，我们更希望它会接近于训练集中的 $第二周：神经网络的编程基础(Basics$ 值，为了对上面的公式更详细的介绍，我们需要说明上面的定义是对一个训练样本来说的，这种形式也使用于每个训练样本，我们使用这些带有圆括号的上标来区分索引和样本，训练样本 $第二周：神经网络的编程基础(Basics$ 所对应的预测值是 $第二周：神经网络的编程基础(Basics$ ,是用训练样本的 $第二周：神经网络的编程基础(Basics$ 然后通过sigmoid函数来得到，也可以把 $第二周：神经网络的编程基础(Basics$ 定义为 $第二周：神经网络的编程基础(Basics$ ,我们将使用这个符号 $第二周：神经网络的编程基础(Basics$ 注解，上标 $第二周：神经网络的编程基础(Basics$ 来指明数据表示 $第二周：神经网络的编程基础(Basics$ 或者 $第二周：神经网络的编程基础(Basics$ 或者 $第二周：神经网络的编程基础(Basics$ 或者其他数据的第 $第二周：神经网络的编程基础(Basics$ 个训练样本，这就是上标 $第二周：神经网络的编程基础(Basics$ 的含义。

损失函数：

损失函数又叫做误差函数，用来衡量算法的运行情况，Loss function:以上是关于第二周：神经网络的编程基础(Basics of Neural Network programming)的主要内容，如果未能解决你的问题，请参考以下文章