如何在音频文件/流中搜索内容？ [关闭]

Posted 2023-02-24

技术标签:

【中文标题】如何在音频文件/流中搜索内容？ [关闭]【英文标题】：How do I search content, within audio files/streams? [closed] 【发布时间】：2008-08-22 21:46:03 【问题描述】：

我一直想知道有多少种不同的搜索技术，用于搜索文本、搜索图像甚至是视频。

但是，我从未遇到过在音频文件中搜索内容的解决方案。

例如：假设我有大约 200 个以 mp3、wav 和 ogg 文件形式下载到我的 PC 的播客。它们都被统称为 podcast1.mp3、podcast2.mp3 等。因此，如果不实际听到它们，就不可能知道内容是什么。可以这么说，我有兴趣找出播客谈论“游戏编程”的内容。我希望结果显示为：

Podcast1.mp3 - 3 个结果在时间索引 - 0:16:21、0:43:45、1:12:31 Podcast21.ogg - 1 个结果在时间索引 - 0:12:01

所以我的问题：

如何解决这个问题？是否有合适的算法来做这样的事情？

我脑海中突然冒出的一个想法是，可以使用“语音转文本”软件来获取每个音频文件的成绩单以及时间索引，然后解析成绩单以获得输出。

我将其视为我的爱好项目之一。谢谢！

【问题讨论】：

【参考方案1】：

如果您想在音频流中搜索文本（即所说的内容），您必须使用某种语音识别算法对其进行处理，并将文本存储为与文件关联的元数据。对于视频，您还可以对视频中的文本进行文本识别。 Evernote 已经对图像文件中的文本执行此操作，但据我所知不支持音频。

使用音频搜索音频时可能会发生类似的情况。我不知道这些算法的细节，但我猜它们涉及某种频率分析。 Shazam 正在使用这种技术根据音频片段识别歌曲。

以下是一些可能有用的***文章：

Speech recognition Fast Fourier transform Frequency analysis (frequency spectrum) Optical character recognition (OCR)

【讨论】：

以上是关于如何在音频文件/流中搜索内容？ [关闭]的主要内容，如果未能解决你的问题，请参考以下文章