MP3 中的“样本”是啥？

Posted 2023-02-25

技术标签:

【中文标题】MP3 中的“样本”是啥？【英文标题】：What is a "sample" in MP3?MP3 中的“样本”是什么？ 【发布时间】：2012-06-28 21:34:49 【问题描述】：

据说，MP3 帧包含 1152 个样本。那么什么是“样本”呢？左右声道的一对值？还是右声道或左声道的单个值？

【问题讨论】：

【参考方案1】：

使用的语言可能会有点混乱。唯一的原因是每帧每个音频通道将有 1152 个（或 384 个，或 576 个，取决于 MPEG 版本和层）。由于压缩，这些数据的实际存储方式比每个通道的单个值更复杂。

如果您想了解更多信息，我会推荐 http://blog.bjrn.se/2008/10/lets-build-mp3-decoder.html，这是一篇不错的详细博客，可以帮助读者加深对 MP3 格式的理解，以便构建解码器。

您还可以查看http://wiki.hydrogenaudio.org/index.php?title=MP3#Polyphase_Filterbank_Formula 以获取更多技术信息。链接锚定到一个部分，该部分特别说明：“音频由每个音频通道 1152 个样本的帧处理”但整个页面描述了 MP3 格式的各个方面。

【讨论】：

后面的意思就是未压缩的立体帧有1152 * 2 * 2字节对吧？是的。从第一个链接：“当我们正确解码后，一个逻辑帧将为我们产生每个通道正好 1152 个时域样本。在典型的 PCM WAV 文件中，存储这些样本需要每个通道 2304 个字节 i>" 样本和时间有关系吗？ "...每个音频通道将有 1152 个..." 1152 个什么？每个通道每帧 1152 个样本？ @jayarjo 通常，采样率为 44.1 kHz，这意味着每秒有 44,100 个样本。 MP3 还支持 32 kHz 和 48 kHz (source)。【参考方案2】：

MP3 接收 2304 个 16 位 PCM 样本，每个通道有 1152 个，并且本质上对其执行重叠的 MDCT，这样每个通道就可以获得 576 个频域分量。因为是半重叠的，接下来的 MDCT 变换将包括每个通道 756 个新样本和 756 个旧样本，每个通道输出 756 个样本，因此您得到了从时域到频域的 1:1 样本映射。

心理声学模型是执行有损压缩的，我不知道细节。其输出被霍夫曼编码（这是无损压缩）。

每个 MP3 帧包含 2 个 576 个样本的颗粒（对应于 576 个新 PCM 样本和 576 个旧 PCM 样本）。这意味着每个通道有 576 个样本，或总共 1152 个样本。因此，每个帧对应于每个通道 1152 个新的 PCM 样本，所以 2304 samples。每个颗粒包含两个通道的霍夫曼比特，两个通道的比例因子。帧中的边信息由霍夫曼解码器使用。

样本通常指的是一个时间点，因此这将包括左右通道，但您可以将它们分开。

【讨论】：

以上是关于MP3 中的“样本”是啥？的主要内容，如果未能解决你的问题，请参考以下文章

Scikit 的 DBSCAN 聚类算法中的噪声样本是啥？

统计学中的自由度是啥意思

支持向量机中的“支持”是啥意思？

MP3 样本大小？

如何使用 NAudio 从 mp3 中获取音频样本数据

mp3 到样本数组 NAudio