池化与随时间的池化

Posted 2023-03-12

技术标签:

【中文标题】池化与随时间的池化【英文标题】：Pooling vs Pooling-over-time 【发布时间】：2018-07-11 00:08:45 【问题描述】：

我从概念上理解 max/sum 池中发生的事情作为 CNN 层操作，但我看到这个术语“随时间变化的最大池”或“随时间变化的总和池”（例如，"Convolutional Neural Networks for Sentence Classification" 论文尹金）。有什么区别？

【问题讨论】：

你在哪里看到这个词？参见例如arxiv.org/pdf/1408.5882.pdf - 搜索“max-over-time”。在图中它指的是这种池化方法。 【参考方案1】：

max-over-time pooling 通常应用在 NLP 中（不像普通的 max-pool，在 CNN 中很常见，用于计算机视觉任务），所以设置有点不同。

max-over-time pooling 的输入是一个特征图c = [c(1), ..., c(n-h+1)]，它是在一个长度为n 的句子上使用一个大小为h 的过滤器计算出来的。卷积运算与图像运算非常相似，但在这种情况下，它应用于单词的一维向量。这是paper中的公式（3）。

max-over-time pooling 操作非常简单：max_c = max(c)，即，它是一个在整个特征图上获得最大值的单个数字。这样做的原因，而不是像在 CNN 中那样“下采样”句子，是因为在 NLP 中，句子在语料库中自然具有不同的长度。这使得不同句子的特征图不同，但我们希望将张量减小到固定大小以最终应用 softmax 或回归头。如论文所述，它允许捕获最重要的特征，每个特征映射中具有最高值的特征。

请注意，在计算机视觉中，图像通常¹大小相同，例如28x28 或32x32，这就是为什么没有必要立即将特征图下采样到1x1。

Sum-pooling-over-time 是一样的。

¹ 现代 CNN 可以用不同大小的图像进行训练，但这要求网络是全卷积的，因此它没有任何池化层。详情请见this question。

【讨论】：

关于你的脚注：我相信 Global Average Pooling 支持不同尺寸的输入图像。正确。好评论。但它更接近 1x1 卷积，而不是 avg-pool 层，因此网络仍然不会有普通的池化层。说真的？！他们强制固定大小层的方式是取最大值并将单个数字作为层？这对我来说似乎很疯狂。那么他们如何在最后应用一个 softmax 层呢？【参考方案2】：

最大池化通常适用于二维特征平面中的区域，而随着时间的推移，最大池化沿一维特征向量发生。

这是斯坦福大学CS231n 的最大池化演示：

随时间推移的最大池化采用一维特征向量并计算最大值。 “随着时间的推移”只是意味着对于某些顺序输入（如句子）或您链接的论文中的句子中所有短语的串联，这是沿着时间维度发生的。

例如：

[2, 7, 4, 1, 5] -> [7]

来源：CS224d Lecture 13 slides

【讨论】：

虽然这绝对正确，但这与上面的 NLP 相关问题无关，而与计算机视觉有关。

以上是关于池化与随时间的池化的主要内容，如果未能解决你的问题，请参考以下文章