在 Sphinx4 中将语音解码为音素

Posted 2023-02-25

技术标签:

【中文标题】在 Sphinx4 中将语音解码为音素【英文标题】：Decode speech into Phonemes in Sphinx4 【发布时间】：2013-01-26 06:31:08 【问题描述】：

我可以使用 CMUSphinx4 将特定语音解码为音素并将这些音素用于进一步的实现吗？

【问题讨论】：

不，不支持。一个完全重复的问题是***.com/questions/12048163/… 那你能告诉我 sphinx4 是如何识别语音的（方法）。当然，您可以查看教程cmusphinx.sourceforge.net/wiki/tutorialconcepts 语音识别器不查找音素，因为音素发音取决于上下文。相反，语音识别器会查找整个单词。 【参考方案1】：

如果您使用的是 sphinx4（beta 6），框架中有一个名为 getBestPronunciationResult()

的方法

"当应用程序需要音素时使用该方法最佳最终路径。请注意，单词可能有多个发音，所以这不等于单词路径，例如一个[HH,W,AH,N] 到[T,UW] 三[TH,R,IY]

返回：最佳路径上的单词串和相关音素"

位置：src/sphinx4/edu/cmu/sphinx/result/Result.java

Token.java 是执行实际工作的类。

希望这会有所帮助。

【讨论】：

【参考方案2】：

找到了这个示例代码，它可以接收识别结果对象并转储音素 :http://cmusphinx.sourceforge.net/wiki/sphinx4:unittimestamps

我发现这篇论文对理解 Sphinx4 非常有用：http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4Whitepaper.pdf

了解了架构后，我浏览了 javadoc 页面上的软件包列表。

希望对您有所帮助。祝你好运！

【讨论】：

请注意，不鼓励仅链接的答案，因此答案应该是搜索解决方案的终点（相对于另一个参考中途停留，随着时间的推移往往会变得陈旧）。请考虑在此处添加独立的概要，并保留链接作为参考。

以上是关于在 Sphinx4 中将语音解码为音素的主要内容，如果未能解决你的问题，请参考以下文章

sphinx4 中的语音识别响应很差

基于GMM-HMM的语音识别系统

GrammarFst

iOS语音对讲（三）FFmpeg实时解码AAC并播放PCM

语音处理基础知识