单元状态（c_t）：它对应于网络的长期记忆内容。
忘记门：单元状态中的某些信息不再需要并被擦除。门接收两个输入，x_t（当前时间戳输入）和 h_t-1（先前的单元状态），在添加偏差之前与相关的权重矩阵相乘。结果被发送到激活函数，该函数输出一个二进制值，该值决定信息是保留还是遗忘。
输入门：它决定将哪条新信息添加到单元状态。它类似于使用当前时间戳输入和先前单元状态的遗忘门，唯一的区别是乘以不同的权重集。
输出门：输出门的工作是从当前单元状态中提取有意义的信息并将其作为输出提供。

回声状态网络 (ESN)

Echo state Networks 是一个 RNN，具有稀疏连接的隐藏层，通常具有 1% 的连接性。

隐藏神经元的连接性和权重是固定的和随机分配的。唯一需要学习的是输出层的权重。它可以看作是通过所有隐藏层的加权输入和目标输出的线性模型。主要思想是保持早期层固定。

在训练期间将修改的唯一权重是用于将隐藏层连接到输出层的概要。这使得损失函数简单且易于区分。

假设线性输出单元，训练变得不复杂。唯一要记住的是非常小心地设置随机连接。

卷积神经网络 (CNN)

卷积神经网络是一种前馈神经网络，用于图像分析、自然语言处理和其他复杂图像分类问题等任务。

CNN 具有构成 ConvNet 基础的卷积层隐藏层。

特征是指图像数据中的微小细节，如边缘、边界、形状、纹理、对象、圆形等。

在更高层次上，卷积层在过滤器的帮助下检测图像数据中的这些模式。更高级别的细节由前几个卷积层处理。

网络越深入，模式搜索就越复杂。

例如，在后面的层而不是边缘和简单的形状中，过滤器可以检测特定对象，如眼睛或耳朵，最终检测到猫、狗等等。

卷积神经网络中的特征提取和分类

在向网络添加卷积层时，我们需要指定过滤器的数量。

过滤器可以被认为是一个相对较小的矩阵，我们决定这个矩阵的行数和列数。

这个特征矩阵的值是用随机数初始化的。当这个卷积层接收到输入数据的像素值时，滤波器将对输入矩阵的每个补丁进行卷积。

卷积层的输出通常通过 ReLU 激活函数来给模型带来非线性。它采用特征图并将所有负值替换为零。

池化是卷积网络中非常重要的一步，因为它减少了计算量，并使模型能够容忍失真和变化。完全连接的密集神经网络将使用扁平化的特征矩阵并根据用例进行预测。

反卷积神经网络 (DNN)

反卷积神经网络是以相反的方式工作的 CNN。

当我们使用卷积层和最大池化时，图像的大小会减小。为了达到原始大小，我们使用上采样和转置卷积层。上采样没有可训练的参数——它只是按照相应的大小重复图像数据的行和列。

转置卷积层意味着同时应用卷积操作和上采样。它表示为 Conv2DTranspose（过滤器数量、过滤器大小、步幅）。如果我们设置 stride=1，我们没有任何上采样并接收相同输入大小的输出。

亚历克斯网

AlexNet 在 Imagenet 数据集上进行了训练，该数据集包含 1500 万张 256*256*3 的高分辨率图像。它有多个卷积层，比 LeNet 人工神经网络更深。

下面是 AlexNet 的特点：

在此架构中添加了 Dropout 以防止过度拟合。
数据增强是作为预训练过程执行的。
首次使用 ReLU 激活函数代替 sigmoid、Softmax。
首次进行GPU学习
为了防止信息丢失，进行了重叠池化。

它有五个卷积池层块，然后是三个完全连接的密集层用于分类。

过头

这种神经网络架构使用单一框架探索了分类、定位和检测这三个众所周知的视觉任务。

它同时在所有三个任务上训练模型以提高准确性。

它是对 AlexNet 的修改。它预测每个空间位置和尺度的边界框。对于定位，分类头被回归网络取代。

VGG

VGG 代表视觉几何组。

VGG 背后的想法是，如果 AlexNet 在更大和更深方面表现优于 LeNet，为什么不继续推进呢？

我们可以采取的方法之一是添加更密集的层。这将带来更多的计算。

下一个可能的方法是拥有更多的卷积层。但这并没有奏效，因为单独定义每个卷积层非常累人。

所以-

所有解决方案中最好的是将卷积层分组为块。

问题是：使用更少更宽的卷积块还是更窄的卷积块更好？

最终，研究人员得出结论，与数量较少的较宽卷积相比，更多层的窄卷积更强大。

一个 VGG 块有一堆 3x3 卷积，填充 1 以保持输出大小与输入大小相同，然后将最大池化为分辨率的一半。该架构有n个 VGG 块，后跟三个完全连接的密集层。

网中网

卷积层需要更少的参数。正是最后几层完全连接的神经元带来了参数数量的巨大峰值。

解决这个问题的一种方法是摆脱完全连接的层。但-

虽然理论上听起来很容易，但实施起来却相当困难。

卷积和池化降低了分辨率，但在某些时候，我们仍然需要将其映射到相应的类。因此，我们的想法是随着我们深入而降低分辨率，并通过使用 1*1 卷积来增加通道数。这为我们提供了每个频道的高质量信息。

在 network-in-network 架构中，最后一个全连接层被全局最大池化层取代，使模型更轻。

GoogLeNet 和 Inception

Inception 神经网络架构具有三个卷积层，具有不同大小的过滤器和最大池。每层都有不同大小的过滤器用于并行学习。

有不同尺寸的过滤器来处理信息位置的巨大变化，这使得选择合适尺寸的过滤器变得非常困难。

小滤波器尺寸的卷积层负责一个小的信息区域。

更大的过滤器尺寸捕获更大的信息单元。

GoogleNet 架构由具有 1x1、3x3、5x5 卷积层的初始块组成，随后是前一层的 3x3 最大池化和填充（以使输出与输入具有相同的形状），然后是它们的输出连接。

挤压网

它的目标是更小的 CNN，以便在分布式训练期间服务器之间的通信更少。

它在 AlexNet 架构上执行的更改如下：

将 3*3 过滤器替换为 1*1 过滤器，以减少参数数量。
稍后在架构中进行下采样，以便卷积层具有较大的激活图
他们使用由 1*1 卷积层组成的压缩层来压缩特征，然后使用 1*1 和 3*3 卷积层的组合对其进行扩展。每个挤压膨胀块被放置在一起，被称为一个火模块。

异常

作为所有 CNN 的基本构建块的卷积层涉及卷积操作。每个卷积操作都涉及在输入像素阵列的所有补丁中滑动过滤器。

每次执行的乘法次数等于过滤器中存在的元素数。

在标准卷积中，跨所有输入通道的过滤器和这些值的组合在一个步骤中完成。Xception 架构中提出的深度可分离卷积将该操作分解为两部分：

深度卷积
逐点卷积

移动网络

MobileNets 使用深度可分离卷积来构建轻量级深度神经网络。他们开发了非常小的、低延迟的模型，用于机器人、自动驾驶汽车等应用程序。这些模型被认为最适合移动设备，因此它们的名字叫 MobileNets。

在简单的 CNN 结构中，滤波器是叠加在输入图像块上的块，在两个重叠分量之间计算点积。计算一个通道内的细节以及不同通道之间的关系。

MobileNets 没有一个大的过滤器，而是有两个过滤器：

一次通过一个通道来检测通道中的所有像素是如何相关的
另一个同时通过所有通道，以查看一个像素与其后面的每个其他像素之间的关系。

胶囊网络

卷积神经网络存在一些问题——

他们被训练学习图像：在较低的层中学习边缘和曲率，当我们向上层级时，它会学习更复杂的特征。

子采样或池化会丢失空间关系。

为了帮助您更好地理解它——

模型仅仅知道图像包含鼻子、眼睛或嘴巴是不够的，但它还应该理解眼睛在鼻子上方，鼻子在眼睛和嘴巴之间，对吧？

你看，卷积神经网络在检测不同位置的图像时表现不佳，例如旋转的。它必须处于与他们接受训练的图像相似的位置。

这是一个问题。

网络应该争取等方差，而不是不变性。这意味着无论二次采样图像在什么位置或旋转，神经网络都以相同的方式响应。它也应该相应地改变以适应这样的子图像。

简而言之：我们需要一个更容易泛化的网络。

这是主要思想——

人工神经网络必须以更有效的方式实现平移旋转和不变性。这些网络应该有本地胶囊，可以对其输入执行复杂的内部计算，然后将结果封装到一个包含大量信息的输出的小向量中。

现在，试着记住这一点，并开始考虑使用胶囊而不是神经元。听起来很有趣，对吧？

神经网络不是添加层，而是在层中嵌套一个新层。这个嵌套层称为胶囊，它是一组神经元。胶囊网络不是在层级方面使结构更深，而是在同一层内嵌套另一层。

这使得模型更加健壮。

生成对抗网络 (GAN)

生成式建模属于无监督学习的范畴，其中新/合成数据是根据从输入数据集中发现的模式生成的。

GAN 是一种生成模型，用于通过学习模式生成全新的合成数据，因此是 AI 研究的一个活跃领域。

它们有两个组件——一个以竞争方式工作的生成器和一个鉴别器。

生成器的工作是在学习阶段根据模型的特征创建合成数据。它以随机数据作为输入，并在执行某些转换后返回生成的图像。

鉴别器充当批评者，对问题域有一个全面的了解，对生成的图像有清晰的理解。

这些生成的图像被鉴别器分类为假/真图像。

鉴别器通过 0 到 1 范围内的值返回对图像有噪声/无噪声的概率预测，其中 1 是真实图像，0 是假图像。

生成器网络根据其学习生成样本。

它的对手，鉴别器，努力区分来自训练数据的样本和从生成器产生的样本。有来自鉴别器的反馈馈送到生成器以提高性能。

当鉴别器成功区分真假示例时，该组件运行良好，无需对其参数应用任何更改。

当生成器无法生成真实图像时，生成器会受到惩罚，从而可以欺骗鉴别器。但是，如果它成功地使鉴别器将生成的图像分类为真实图像，则表明生成器的训练正在朝着正确的方向发展。所以生成器的最终目的是欺骗判别器，而判别器的最终目的是超越生成器的准确性。

它用于预测视频中的下一帧、文本到图像生成、图像到图像转换（如风格转移）、图像去噪等场景。

变压器神经网络

事实是-

RNN 速度慢，训练时间过长。

它们不适用于大型序列数据并导致梯度消失。为在 RNN 中引入记忆而引入的 LSTM 的训练速度甚至变得更慢。

对于 RNN 和 LSTM，我们需要按顺序或串行地输入数据。这不使用 GPU。

如何并行化序列数据的训练？

答案是变形金刚。

这些网络采用编码器-解码器结构，不同之处在于输入数据可以并行传递。

在 RNN 结构中，一次一个单词通过输入层。但是在 Transformers 中，没有用于传递输入的时间戳的概念。我们将完整的句子放在一起，并将所有单词的嵌入一起获取。

这些 Transformer 神经网络是如何做到这一点的？

输入嵌入：计算机不理解单词。他们理解数字、向量等。每个单词都映射到空间中的一个点，称为嵌入空间。预训练的嵌入空间用于将单词映射到向量。同一个词在不同的句子中会有不同的含义。

位置编码器：向量根据单词在句子中的位置给出上下文。

因此，输入嵌入 + 位置编码器 = 带有上下文信息的输入嵌入

我们将它传递给一个编码器块，在那里它进入一个多头注意力层和一个前馈层。

注意力层决定了模型应该关注输入句子的哪一部分。在训练期间，相应的法语句子嵌入被馈送到具有三个主要组件的解码器。

自注意力模块为句子中的每个单词生成注意力向量，以表示每个单词与同一句子中的每个单词的相关程度。这些注意力向量和编码器的向量被传递到另一个称为“编码器-解码器注意力块”的注意力块中。这个注意力块确定了每个词向量之间的相关程度，这就是英语到法语映射发生的地方。

提议对架构进行重大更改-

RNN 的缺点是不使用并行计算，并且通过排序的时间戳数据丢失关键信息。相比之下，Transformer 基于注意力，需要一个步骤来提供所有顺序数据，并在核心架构中具有自注意力机制来保存重要信息。

BERT

BERT（来自 Transformer的双向编码器表示）优于 LSTM。

这些模型更快，因为可以同时处理单词。单词的上下文可以更好地学习，因为它们可以同时从两个方向学习。如果我们堆叠编码器，我们将得到 BERT 模型。

BERT的学习策略：

掩码语言建模：BERT 接受输入句子并用 [MASK] 标记替换一些随机单词。该模型的目标是根据序列中其他非掩码单词提供的上下文来预测掩码单词的原始单词。

该模型使用 Softmax 压缩函数计算词汇表中每个单词的概率。它有助于 BERT 理解句子中的双向上下文。

Next Sentence Prediction：在这种情况下，BERT 接受两个句子的输入，并确定第二个句子是否跟在第一个句子之后。

这有助于 BERT 理解不同句子的上下文。

为了帮助模型在训练中区分两个句子，输入在进入模型之前按如下方式处理：

在第一句的开头插入一个 [CLS] 标记，在每个句子的结尾插入一个 [SEP] 标记。
将指示句子 A 或句子 B 的句子嵌入添加到每个标记中。创建它是为了理解句子之间的相关性。
位置嵌入被添加到每个标记以指示其在序列中的位置。这有助于模型在从两个方向学习时了解其位置。

在训练 BERT 模型时，Masked LM 和 Next Sentence Prediction 一起训练，以最大限度地减少两种策略的组合损失函数，并很好地理解语言。

GPT; GPT2；GPT3

GPT（Generative PreTraining）是一种语言模型，用于预测单词序列的概率。

涉及生成训练的语言模型不需要人工标记的数据。

GPT-1 有两个训练步骤——使用未标记数据和语言模型目标函数进行无监督预训练，然后在没有特定任务模型的情况下对模型进行监督微调。GPT 使用变压器解码器架构。

使用 GPT2，模型的目的更多地转移到了文本生成方面。它是一种自回归语言模型。它在输入序列上进行训练，其目标是预测序列每个点的下一个标记。

它由一个带有注意力机制的变压器块组成。它的维数比 BERT 略低，具有更多的转换器块（48 个块）和更大的序列长度。

GPT3 的基本结构与 GPT2 相似，唯一的区别在于更多的转换器块（96 个块）并且在更多的数据上训练。与 GPT2 相比，输入句子的序列大小也翻了一番。它是迄今为止包含最多参数的最大神经网络架构。

动量对比 (MoCo)

该模型背后的想法是，在检测或分割等计算机视觉任务中，无监督的预训练可以超越有监督的训练。

过去，我们已经看到 BERT、GPT 等基于无监督学习的模型在 NLP 领域取得了巨大成功。

在自然语言处理相关的任务中，给一个模型一个输入句子，模型需要预测一个或多个后续单词。假设我们有一个包含所有建议单词的字典。使用这样的字典允许我们将损失定义为一个简单的字典查找问题。

假设图像通过编码器；图像的编码特征可以称为查询。

在这种情况下，字典是一大组图像的一组特征。这样的字典很难创建，因为图像和相应的特征不容易获得。通过将编码器模型应用于一组图像来准备动态字典。

这种方法称为对比学习。

上图代表了对比学习的两种优化机制的批处理视角。图像被编码到一个表示空间中，在其中计算成对的亲和力。

MoCo 解决了对比学习中的两个挑战：

如何让动态字典足够大？
更新编码器时如何使动态字典保持一致？

为了在对比学习框架中制作一个大字典，我们将前一批图像的特征保持为一个队列。字典由当前和以前的批次组成，不受批次大小的限制。

该词典中的特征是由不断更新的编码器产生的，因此降低了词典的整体一致性。为了解决这个一致性问题，建议使用缓慢更新的动量编码器，

SimCLR

对比学习与数据增强、更大的批量、更多的训练时期和更广泛的网络相结合。

SimCLR 强烈增强了未标记的训练数据，并将它们提供给一系列标准 ResNet 架构和小型神经网络。

图像被传递到基本编码器以获取嵌入。这些嵌入通过两层神经网络得到另一组嵌入。使用了交叉熵的修改版本，如果两个嵌入形成图像和增强图像对，则它们之间的相似性应该接近。

换句话说，嵌入应该吸引。另一方面，不属于同一类的图像之间的相似性应该排斥。

概括

每个神经网络架构都有自己的优缺点。

像前馈神经网络这样的标准神经网络最常用于解决与简单结构化数据相关的分类和回归问题。

递归神经网络在长时间记忆信息方面功能更强大，可用于文本、音频、视频等顺序数据。

最近的研究表明，基于注意力机制的 Transformer 优于 RNN，几乎在每个领域都取代了 RNN。

对于像图像这样的复杂数据，我们可以在分类任务中使用 ConvNet，在生成图像或风格迁移相关任务时，生成对抗网络表现最好。

[人工智能-深度学习-28]：卷积神经网络CNN - 网络架构与描述方法

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：https://blog.csdn.net/HiWangWenBing/article/details/120806599

第1章卷积神经网络总体概述

1.1 什么是卷积神经网络

1.2 卷积神经网络的总体框架

1.3 卷积神经神经网络案例

备注：

通常情况下，带训练参数的层，成称为网络的层数。
RELU和POOL层本身不带有训练参数。

第2章卷积神经网络的描述方法

2.1 通道法、层内并行法

通道法关注的是：

通道的数目，即为神经元的数目，与输入图形的三个RGB通道等位

而二维平面，即为每个神经元内部的W矩阵，长度 * 宽度就是每个神经元内部的参数的个数。

通道 * 二维矩阵描述了三维图片在CNN中的尺寸的变化，维度保持不变的变换过程，也反映了每一层参数的个数。

通道法的优缺点：

优点：

通道法把每个神经元看成是并行的排列，相对于厚度法，更加直观，直观的体现了单层内部的各个神经元之间的并发行、并行性。

缺点：

不方便表达不同层之间的图片处理的串行关系以及形状的变化！！！

2.2 厚度法、层间串行法

缺点：

（1）串行法把神经元在数据处理的方向叠加在了一起，神经元间的并行性看来其并不那么直观。

（2）由于把神经元叠加在了一起，就要求同层的每个神经元的形状必须相同！！！！

优点：

（1）表达神经网络层之间的串联结构就非常方便。

（2）表达神经网络层内部的三维结构（长*宽*高）也非常方便，直观。

（3）能够方便的表达数据在不同层之间的形状的变化关系：

厚度：反应了并行性的神经元个数的变化、即通道个数的变化。
长度*宽度（平面）：面积的变化，反应了每一层神经元形状的变化，每个神经元W参数的变化情况。
厚度 * 长度 * 宽度 =》某一个参数的个数（忽略个数极少的偏置参数）

（4）从输入到输出，表达方式统一、一致。

2.3 神经网络的形状解读

（1）现有神经网络案例解读

输入层：深度为3，即个通道，每个通道的二维数据形状为32 * 32

卷积层1：深度为64，即64个通道或64个神经元，每个通道的二维数据形状为28 * 28（通过卷积获得输出形状），卷积核的大小为5*5（通过对上一层的感受野的大小来体现）

降采用层1：深度为64不变，每个通道的二维数据形状降为原先的一半：14 * 14 （降采样），采样核的大小为2*2（通过对上一层的感受野的大小来体现）

卷积层2：深度为64不变，即64个通道或64个神经元，每个通道的二维数据形状为10 * 10，卷积核的大小为5 * 5 （通过对上一层的感受野的大小来体现）

降采用层2：深度为64不变，即64个通道或64个神经元，每个通道的二维数据形状为5 * 5，由又降低一半。采样核的大小为2*2。

全连接层1：1024个并行的神经元，即1024个输出，输入取决于降采样层的输出：64*5*5

全连接层2：512个并行的神经元，即512个输出，输入取决于前一个全连接层：1024.

输出层：10个并行的神经元，即10个输出，输入取决于前一个全连接层：512.

（2）特别说明

卷积网络的定义方式为：每一层的三维形状，以及该层的输出的个数 = 长度 * 宽度 * 深度，深度就是神经元的个数。即每个卷积核神经元的输出是长度 * 宽度。
全连接网的定义方式为：每一层的一维形状，以及该层的输出的个数 = 1 * 1 * 深度，深度就是神经元的个数。即每个全连接网络神经元的输出是1*1.
上述方式把全连接网络和卷积网络进行统一，因此全连接与卷积之间是可以相互替代（确保总总输出不变）。
卷积网络只定义了网络的输入和输出以及卷积核的大小，并没有定义迭代的步长和填充数据大小。迭代步长和填充数据的大小是需要深度学习框架根据（1）输入形状+（2）输出形状+（3）卷积核形状，自动计算出来的，也就是说通过修正步长和填充，可以确保输入和输出的关系，他们之间的数学公式如下：

第3章卷积神经网络的本质

第4章卷积神经网络的发展与常见类型与分类

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：https://blog.csdn.net/HiWangWenBing/article/details/120806599

以上是关于什么是神经网络，它们是如何工作的？(神经网络架构基本指南)的主要内容，如果未能解决你的问题，请参考以下文章

什么是神经网络，它们是如何工作的？(神经网络架构基本指南)