Microsoft 语音识别结果的格式(挪威语)

Posted

技术标签:

【中文标题】Microsoft 语音识别结果的格式(挪威语)【英文标题】:Formatting of Microsoft speech recognition results (Norwegian) 【发布时间】:2020-01-21 08:58:18 【问题描述】:

在我们正在进行的使用各种语音到文本供应商转录视频材料的实验中,微软似乎是实际单词识别的有力竞争者。对于英语材料,格式/标点符号也很好,但对于挪威语材料(与我们最相关),几乎没有任何格式/标点符号。我们使用 C# API SpeechRecognizer,config.SpeechRecognitionLanguage 设置为“nb-NO”,config.OutputFormat 设置为 OutputFormat.Detailed,并使用 config.RequestWordLevelTimestamps()。我们可以做些什么来改进结果的格式?

此外,在检索带时间戳的单个单词时(这是我们的要求之一),即使使用英文材料也没有格式。在检索单个单词时,我们可以设置一些选项来保持格式/标点符号吗?

最好的问候, 贡纳尔

【问题讨论】:

您使用的是哪个结果?词法、显示、ITN、MaskedITN? 我们正在使用显示。但据我所知,除了 Display 和 Masked ITN 版本中第一个单词大写外,结果版本之间的格式没有区别。 (这是给挪威语的;英语剪辑是另一回事。) 【参考方案1】:

微软目前对nb-NO结果的语音格式支持确实非常基础。显示结果在请求时具有基本的数字格式和明确的标点符号。 Microsoft 演讲正积极致力于改进自动标点和大写以改进结果。 关于时间戳,目前它不为显示级别生成时间戳。将来可能会支持。

【讨论】:

海蒂,感谢您的回复!至于我的时间戳问题,我们确实得到了单词级别的时间戳,但是,即使使用英文材料(显示结果确实有很好的大写/标点符号),计时的单个单词也没有格式化。是否有一些配置选项可以将大写/标点符号保持在单个单词级别? 不幸的是,一个简单的答案现在是否定的。当前的“单字级别”是根据词法输入生成的,并在显示格式化后返回结果时以这种方式持续存在。好消息是,更改结果负载以包含显示级别字和时间偏移的工作已安排好,您可能会在今年 5 月看到它按预期工作。

以上是关于Microsoft 语音识别结果的格式(挪威语)的主要内容,如果未能解决你的问题,请参考以下文章

智能电话机器人,使用Microsoft语音识别技术(Speech sdk)(下)

Microsoft 语音识别 setInputToDefaultAudioDevice 引发异常

Microsoft 语音识别属性调整

无法使用Delphi通过Post打开Microsoft语音识别API

[北航软工]技术规格说明书

语音识别玩转语音识别 1 语音识别简介