在 Sphinx4 中将语音解码为音素

Posted

技术标签:

【中文标题】在 Sphinx4 中将语音解码为音素【英文标题】:Decode speech into Phonemes in Sphinx4 【发布时间】:2013-01-26 06:31:08 【问题描述】:

我可以使用 CMUSphinx4 将特定语音解码为音素并将这些音素用于进一步的实现吗?

【问题讨论】:

不,不支持。一个完全重复的问题是***.com/questions/12048163/… 那你能告诉我 sphinx4 是如何识别语音的(方法)。 当然,您可以查看教程cmusphinx.sourceforge.net/wiki/tutorialconcepts 语音识别器不查找音素,因为音素发音取决于上下文。相反,语音识别器会查找整个单词。 【参考方案1】:

如果您使用的是 sphinx4(beta 6),框架中有一个名为 getBestPronunciationResult()

的方法

"当应用程序需要音素时使用该方法 最佳最终路径。请注意,单词可能有多个发音, 所以这不等于单词路径,例如一个[HH,W,AH,N] 到[T,UW] 三[TH,R,IY]

返回: 最佳路径上的单词串和相关音素"

位置:src/sphinx4/edu/cmu/sphinx/result/Result.java

Token.java 是执行实际工作的类。

希望这会有所帮助。

【讨论】:

【参考方案2】:

找到了这个示例代码,它可以接收识别结果对象并转储音素 :http://cmusphinx.sourceforge.net/wiki/sphinx4:unittimestamps

我发现这篇论文对理解 Sphinx4 非常有用:http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4Whitepaper.pdf

了解了架构后,我浏览了 javadoc 页面上的软件包列表。

希望对您有所帮助。祝你好运!

【讨论】:

请注意,不鼓励仅链接的答案,因此答案应该是搜索解决方案的终点(相对于另一个参考中途停留,随着时间的推移往往会变得陈旧)。请考虑在此处添加独立的概要,并保留链接作为参考。

以上是关于在 Sphinx4 中将语音解码为音素的主要内容,如果未能解决你的问题,请参考以下文章

sphinx4 中的语音识别响应很差

基于GMM-HMM的语音识别系统

基于GMM-HMM的语音识别系统

GrammarFst

iOS语音对讲(三)FFmpeg实时解码AAC并播放PCM

语音处理基础知识