语音处理中的向量量化解释

Posted 2023-02-16

技术标签:

【中文标题】语音处理中的向量量化解释【英文标题】：Vector Quantization in Speech Processing Explanation 【发布时间】：2011-01-17 07:04:14 【问题描述】：

我无法从this research paper 确定如何根据训练数据集重现标准矢量量化算法来确定身份不明的语音输入的语言。以下是一些基本信息：

摘要信息 使用声学特征的语言识别（如日语、英语、德语等）是当前语音的一个重要而困难的问题技术。 ... 本文使用的语音数据库包含 20 种语言：16 4名男性和4名女性说出两次的句子。每次的持续时间句子大约8秒。第一种算法是基于标准的矢量量化（VQ）技术。每种语言都有其特点通过自己的 VQ 码本，。

识别算法 第一种算法基于标准矢量量化 (VQ) 技术。每种语言 k 都有自己的 VQ 码本。在识别阶段，输入语音被量化，并计算累积量化失真d_k。作为最小失真的语言被识别。计算 VQ 失真，应用了几个 LPC 频谱失真测量...在这种情况下，WLR -- 加权最小比率 -- 距离：

标准 VQ 算法： 密码本，

，对于每种语言都是使用训练句子生成的。句子中输入向量的累积距离![alt text][4] 定义为：[![alt text][5]][5]

距离d可以是任何与声学特征相对应的距离，它必须与生成码本的距离相同。每种语言都有其 VQ 码本。

我的问题是，我该怎么做？我有一组50个英语句子。在 MATLAB 中，我可以轻松计算任何给定信号的 WLR。但是，我该如何制定码本，因为我必须使用 WLR 来生成英语的“码本”。我也很好奇如何将大小为 16 的 VQ 码本（被发现是最佳大小）与给定的输入信号进行比较。如果有人能帮我提炼这篇论文，我将不胜感激。

谢谢！

【问题讨论】：

【参考方案1】：

第二个问题（将码本与给定信号比较）更简单：对于每个码本条目 V_k_j，您必须计算输入信号的距离 d。距离“d”最小的“j”将对应于最佳拟合码本条目。作为距离函数，您可以使用 WLR

构建密码本 (trainig) 有点复杂。您必须将句子分成长度为 N (16) 的向量，然后使用一些聚类算法（如 k-means）对这些向量进行聚类。然后在每个集群中找到均值。这意味着并将成为密码本条目。这是我想到的第一件事。

另一种算法（我相信会更好）可以找到here。另外，Wikipedia

中描述了两个简单的训练算法

【讨论】：

以上是关于语音处理中的向量量化解释的主要内容，如果未能解决你的问题，请参考以下文章