Linux中的语音到文本转换

Posted

技术标签:

【中文标题】Linux中的语音到文本转换【英文标题】:Speech to text conversion in Linux 【发布时间】:2009-01-18 04:35:08 【问题描述】:

我打算在 Linux 中启动一个将语音转换为文本的应用程序。 是否有任何现有接口以便我可以扩展它们? 或者Linux中是否有任何这样的现有应用程序? 对此有何意见?

编辑:我计划编写的应用程序应该能够将我们所说的每个单词转换为文本,而不仅仅是是/否。

【问题讨论】:

【参考方案1】:

嗯,这是一项艰巨的任务,不用说你想使用什么技术,这里有一些链接:

***上的Speech Recognition Java Speech API W3C Speech Recognition Grammar Specification Sphinx - 一个用 Java 编写的开源识别引擎

祝你好运。有了更多的细节,我们或许能够提供更好的答案。例如,“是/否”呼叫中心式识别与部分自然语言理解之间存在很大差异。

【讨论】:

【参考方案2】:

Dave 的建议是一个很好的开始。斯芬克斯非常漂亮。

我只想补充一点,您应该尽可能地了解概率。作为一名曾经的语言学家,甚至更早的一次性音韵学爱好者,我可以自信地说不要被语言模型所困扰。让我们不要忘记经常被错误归因的“每次我解雇语言学家,我的准确性都会提高”。这实际上是关于模型及其解释噪声和变化的能力,而不是麻省理工学院文科专业的任何内容。

Jurafsky 和 ​​Martin 的“语音和语言处理”是一本好书。它对任务的计算模型有一些非常有用的应用。 Harvey Sussman 对各种元音的 F2 斜率中的线性相关研究(从谷仓猫头鹰开始,一直向人类发展)似乎在当今的模型中实现是一件好事。

【讨论】:

【参考方案3】:

Julius 对于 Linux 来说也是一个不错的选择

【讨论】:

【参考方案4】:

Sphinx 是您在 Linux 上的最佳选择。我已经尝试过 Sphinx II 和 Sphinx III。有一些可用的开源语言和声学模型可以与它们中的每一个一起使用。根本不是生产级别的性能,但足以用于原型设计或演示。对于生产,您需要开发自己的语言和声学模型。

【讨论】:

以上是关于Linux中的语音到文本转换的主要内容,如果未能解决你的问题,请参考以下文章

java将文本转换成语音

我怎么能在Python转换文本到语音

语音到文本的转换

如何在 iPhone 中进行语音到文本的转换

IBM 语音转文本 - 如何将 MP3 音频文件转换为字节数组

使用 Swift 分析录制的音频文件以将语音转换为文本