如何将语音转换为文本?

Posted

技术标签:

【中文标题】如何将语音转换为文本?【英文标题】:How do I convert speech to text? 【发布时间】:2010-10-04 05:50:56 【问题描述】:

如何获取 MP3 并将语音转换为文本?

我有一些会议记录和会议记录(录音中只有一个声音,就是我的声音)。我认为使用语音转文本工具而不是简单地手动转录会更容易且在智力上很有趣。我知道有一些技术,特别是对于使用 Asterisk 和 Podcast 的 VoIP 应用程序,但它们是什么以及如何使用它们?

【问题讨论】:

也许可以把它传递给 Joel 和 Jeff,这样他们就可以获得 SO 播客的 wiki 转录文本。 作为一种解决方法,可以将媒体作为视频上传到 Youtube,因为 Youtube 在上传视频时执行 CC 服务。这不是开发人员的解决方案,但它可能会在紧要关头得到解决。 youtube.com/watch?v=yxmfJuC2Uno 【参考方案1】:

开源:CMU Sphinx

共享软件:http://www.e-speaking.com/ (Windows)

商业:Dragon NaturallySpeaking (Windows)

【讨论】:

我认为以上三个是很好的选择,可以为您提供所需的内容,但是会有一些编码(没有剪切 n'n 粘贴 hack)来让文本说话。根据我将 Sphinx 与 Asterisk PBX 一起使用的非常有限的经验,我会为一个小型个人项目进行免费(啤酒和演讲)投票。【参考方案2】:

.NET 可以使用它的 System.Speech 命名空间来做到这一点。

您必须先转换为 .wav 或从麦克风实时捕获音频。

可在此处找到有关实施的详细信息: Transcribing Audio with .NET

【讨论】:

【参考方案3】:

Dragon NaturallySpeaking似乎支持MP3输入。

如果你想要open source version(我认为有一些基于此的 Asterisk 集成项目)。

【讨论】:

第一个链接坏了。我想它曾经是这样的:nuance.com/dragon.html【参考方案4】:

聚会迟到了,所以回答更多以供将来参考。

该领域的进步 + Mozilla 的思维方式和议程促成了这两个项目:

Deep Speech Common voice

后者有一个 12GB 的数据集供下载。根据我的理解,前者允许使用您自己的音频文件训练模型

【讨论】:

以上是关于如何将语音转换为文本?的主要内容,如果未能解决你的问题,请参考以下文章

IBM 语音转文本 - 如何将 MP3 音频文件转换为字节数组

使用 SAPI 将语音转换为文本

如何将RASA基本文本bot转换为Rasa基本语音机器人

win10 uwp 选择文本转语音的机器人

如何在 iPhone 中进行语音到文本的转换

无法将语音转换为文本