python中的视频和音频处理库

Posted 2023-02-25

技术标签:

【中文标题】python中的视频和音频处理库【英文标题】：video and audio processing library in python 【发布时间】：2011-07-13 15:36:55 【问题描述】：

Python 中有哪些视频/音频库可用于识别视频录制中的特定音频模式？我正在尝试从视频文件中排除录制的开头（跳到特定的音频模式），因此我需要一种方法来

从头开始扫描文件识别音频模式（一段特定的音乐始终相同）从那时起记录/复制其余的视频记录。

视频详情

格式：- 真实媒体（尽管我可以将其转换为更多内容）

时长：- 18 - 24 分钟不等

在一个这样的视频上运行媒体信息工具会提供以下详细信息

Video
ID                               : 1
Format                           : RealVideo 4
Codec ID                         : RV40
Codec ID/Info                    : Based on AVC (H.264), Real Player 9
Duration                         : 19mn 18s
Bit rate                         : 195 Kbps
Width                            : 332 pixels
Height                           : 248 pixels
Display aspect ratio             : 4:3
Frame rate                       : 23.976 fps
Bits/(Pixel*Frame)               : 0.099
Stream size                      : 27.0 MiB (84%)

Audio
ID                               : 0
Format                           : Cooker
Codec ID                         : cook
Codec ID/Info                    : Based on G.722.1, Real Player 6
Duration                         : 19mn 20s
Bit rate                         : 32.0 Kbps
Channel(s)                       : 2 channels
Sampling rate                    : 44.1 KHz
Bit depth                        : 16 bits
Stream size                      : 4.43 MiB (14%)

原问题：

所以前几天我重温了一个动画系列龙珠z，并被我的视频激怒了。每集大约 24 分钟，每集都有前一集的完整回顾和结束音乐，总时长约为 6-8 分钟。

我注意到，当回顾结束并且视频的新名称出现时，每个视频都有相同的音频。我将此音频录制在单独的文件中。

我想问一下python中是否有任何方法可以通过编码来执行以下操作：=

扫描音频以匹配标题名称的录制音频，以了解实际视频开始的确切时间。

将视频保存为从该点开始。

我不知道这样做的难度，如果可能的话，请告诉我。

如果您能告诉任何确实为我提供了这样做的工具的库并给我一些关于我应该如何继续的提示，我将不胜感激。

非常感谢

【问题讨论】：

请原谅我对问题的编辑。我正在尝试提供帮助，因为这个问题引发了“关闭而不是真正的问题”投票。它可能被认为过于模糊和宽泛。我试图重新定义/改写一个更有价值的问题。它仍然很广泛，但可能有用/有趣。简而言之，对于尝试按照指示处理视频的人来说，什么是有用的指针（库名称、算法、陷阱......）。 user506710，能否通过指出视频格式、“标记音乐”的长度和特性等进一步改进问题？没问题 :) 我想如果有人能更清楚地理解它会有所帮助:) 虽然我对它被称为广泛的原因感到困惑......匹配音频以获得开始时间真的太广泛了?在我得到时间之后，我可以从那一刻开始剪辑视频...... @mjv 我没有提到格式的原因是因为我不想限制这个问题......我只是想如果说有一个.avi 库我可以将它转换为.avi 通过批处理...虽然我不明白您所说的标记是什么意思... 【参考方案1】：

AFAIK，仅 Python through windows libraries 或 dragon naturally speaking API 支持语音识别（也公开了较低级别的功能，例如对两个声音之间的相似性进行评分）。

找到标记后，您可以使用this 或this 等外部库根据要求剪切视频。

编辑：Google 搜索还返回了 pyofa 一个围绕 musicip-libofa 的包装器，这是一个 acousting fingerprint 库。

【讨论】：

以上是关于python中的视频和音频处理库的主要内容，如果未能解决你的问题，请参考以下文章

aforge.video.ffmpeg 支持音频吗

python中音频图像识别和网页相关的库合集！

python的音频处理库

C、C++、Python处理音频用啥第三方库

带有Python的音频处理

如何把视频中的音频处理掉