Microsoft Speech-to-Text:部分成绩单丢失

Posted

技术标签:

【中文标题】Microsoft Speech-to-Text:部分成绩单丢失【英文标题】:Microsoft Speech-to-Text: Part of transcript missing 【发布时间】:2020-03-27 14:28:15 【问题描述】:

在我们对用于视频字幕的 Microsoft 语音到文本的测试中,我们有时(很少)会遇到“丢失”,即大部分音频没有被转录。在这些情况下,我们不会收到ResultReason.NoMatch

代码采用 C# 语言,使用 Microsoft.CognitiveServices.Speech (1.10.0)。我们使用OutputFormat.DetailedspeechConfig.RequestWordLevelTimestamps(),我们使用AudioConfig.FromWavFileInput 来提供音频。

我有一个可重现的小示例 wav 文件(至少使用我的代码)。有人愿意使用相同的 wav 文件 (https://www.dropbox.com/s/delpix4wwd95iev/svensk.wav?dl=1) 对他们的代码进行测试吗?很抱歉,我没有英文示例(这是瑞典语音频),但是当我运行它时,时间码(查看单词级别时间戳)之间存在大约 1 个间隔。 14 和 30 秒进入音频。

其他人可以重现这个吗,或者我的代码中是否有一些模糊的错误(这非常接近 MS 的示例代码)?

提前感谢您的任何意见! :-)

【问题讨论】:

我尝试使用 sdk 的示例代码运行您的文件。你说的对。我只有 2 个不同的时间戳(每个识别结果一个)。我不会说瑞典语,所以我不能说识别出的文字是否完整。 谢谢!您是否还检查了单词级别的时间戳?这就是我看到大约 15 秒退出的地方。视频第 14 秒。如果这确实不是因为我的编码草率,那么微软可能应该调查一下......?我们最近在测试过程中看到了一些这样的案例。 是的。继续时间戳。但是所有Recognizing 事件都返回相同的时间戳,直到下一个Recognized 事件。有两种不同的时间戳:10000 和句子Ja, men det är ett allvarligt läge i sverige som vi hörde också. Region stockholm i går som bekräftar de 18 nya dödsfall enbart under det senaste dygnet, där också antalet personer som vårdas på intensivvårdsavdelningen också bara blir fler. 时间戳 303200000 带有句子:Antalet personer som vårdas på intensivvårdsavdelningen och det här gör ju också att debattklimatet om huruvida sverige gör rätt eller fel med att ha det ändå öppna samhället. Det växer. 【参考方案1】:

语音运行时团队已确定问题的原因。这是由于误用了解码器参数。我们将在几天内将修复程序部署到该服务。

-魏

【讨论】:

好消息;非常感谢您跟进此事。【参考方案2】:

我已经下载了音频文件并重现了同样的问题。缺少 14 到 30 秒音频的识别结果。我将把它转发给一个相关的小组来看看它。一旦我听到什么,我会回到这个帖子。

抱歉回复晚了,感谢您使用 Microsoft Cognitive Services Speech SDK!

-魏

【讨论】:

以上是关于Microsoft Speech-to-Text:部分成绩单丢失的主要内容,如果未能解决你的问题,请参考以下文章

在 Python 中使用 Microsoft Azure Speech-to-text 的字幕/说明文字

Azure Speech-To-Text 多语音识别

如何从 Google Apps 脚本授权 Google Speech-to-text?

将 WAV 录制到 IBM Watson Speech-To-Text

Python 中的 Google Cloud Speech-to-Text 使用 websocket 处理音频流

IBM Watson JavaScript SDK for Speech-To-Text WebSocket 问题