FFmpeg从视频中提取音频

Posted Linrra

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了FFmpeg从视频中提取音频相关的知识,希望对你有一定的参考价值。

文章目录

FFmpeg从视频中提取音频

参考博客

流文件基本信息

查看

使用FFprobe

ffprobe 是一个多媒体流分析工具。它从多媒体流中收集信息,并且以人类和机器可读的形式打印出来。它可以用来检测多媒体流的容器类型,以及每一个多媒体流的格式和类型。它可以作为一个独立的应用来使用,也可以结合文本过滤器执行更复杂的处理。—— FFmpeg最全教程

ffprobe -i .\\TMElive.mp4

ffprobe -i .\\MUTE.mp3

音频采样率、采样深度和比特率

  1. 采样率/采样频率
  • 采样率是指每秒钟记录的音频样本数。 模拟信号采样为数字信号,一个音频样本只是一个数字,代表在一个特定时间点的测量声波值。
  • 音频采样率和视频帧率是相似的,但在每一个中保证可用性的通常的最低数字是非常不同的。对于视频来说,为了保证运动的准确描述,每秒至少需要24帧。对于音频来说,要明确地表示英语语音,每秒的最小采样数是8000赫兹。

8,000 Hz是电话所用采样率, 对于人的说话已经足够
11,025 Hz是AM调幅广播所用采样率
22,050 Hz和24,000 Hz 是FM调频广播所用采样率
32,000 Hz是miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
44,100 Hz是音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率 (超过该采样率,人耳很难分辨)
47,250 Hz是商用 PCM 录音机所用采样率
48,000 Hz是miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
50,000 Hz是商用数字录音机所用采样率
96,000 或者 192,000 Hz 是DVD-Audio、一些 LPCM DVD 音轨、BD-ROM(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率
2.8224 MHz是Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率

  1. 采样深度/采样精度/采样大小

用多大bit(多少位0/1)来表示每个采样点处的振幅。越大把振幅分得越精细,录音听起来越接近原声。电话音频最常见的采样深度是16比特和32比特。—— 《通信原理》信源编码

  1. 比特率
  • 比特率指每秒传输信息的比特数。1B=8b, B=byte(字节), b=bit(位)
  • 音频的比特率公式: 比特率 = 采样率 * 单个的周期音频数据长度 。

如16bit 双声道 48KHz音频的比特率
48KHz * (16 * 2) = 1536kbps = 192 kBps

从视频中提取音频

FFmpeg使用方法 ffmpeg [全局选项] [输入文件选项] -i ‘输入文件’ … [输出文件选项] ‘输出文件’ —— FFmpeg最全教程

  • ffmpeg -i .\\TMElive.mp4 -ss 01:00:31 -t 00:02:52.0 -vn -b:a 192k -ar 44100 -ac 2 -acodec libmp3lame -y .\\Mute_1.mp3

    ffprobe -i .\\MUTE_1.mp3

主要选项

-f fmt (input/output)’ 
	强制输入或输出文件格式。通常,输入文件的格式是自动检测的,
	输出文件的格式是通过文件扩展名来进行猜测的,所有该选项大
	多数时候不需要。
‘-i filename (input)’ 
	输入文件名
‘-y (global)’ 
	覆盖输出文件而不询问
‘-n (global)’ 
	不覆盖输出文件,如果一个给定的输出文件已经存在,则立即
	退出
‘-t duration (output)’ 
	当到达 duration 时,停止写输出。
	duration 可以是一个数字(),或者使用hh:mm:ss[.xxx]形式。
	-to 和 -t 是互斥的,-t 优先级更高。
‘-to position (output)’ 
	在 position 处停止写输出。
	duration 可以是一个数字(),或者使用hh:mm:ss[.xxx]形式。
	-to 和 -t 是互斥的,-t 优先级更高。
‘-ss position (input/output)当作为输入选项时(-i 之前),在输入文件中跳转到 position。
	需要注意的是,在大多数格式中,不太可能精确的跳转,因此,
	ffmpeg 将跳转到 position 之前最接近的位置。当进行转码
	并且 ‘-accurate_seek’ 打开时(默认),位于跳转点和 position 
	之间的额外部分将被解码并且丢弃。当做流拷贝或者当使用
	‘-noaccurate_seek’时,它将被保留下来。
	当作为输出选项时(在输出文件名前),解码但是丢弃输入,直到
	时间戳到达 position。
	position 可以是秒或者 hh:mm:ss[.xxx] 形式

音频选项

-ar[:stream_specifier] freq (input/output,per-stream)’
	设置音频采样率。
‘-aq q (output)’
	设置音频质量。这是 -q:a 的别名
‘-ac[:stream_specifier] channels (input/output,per-stream)’
	设置音频通道数。
‘-vn (output)’
	禁止视频录制
‘-an (output)’
	禁止音频录制
‘-acodec codec (input/output)’
	设置音频codec。这是-codec:a的别名
‘-sample_fmt[:stream_specifier] sample_fmt (output,per-stream)’
	设置音频采样格式

高级选项

-map [-]input_file_id[:stream_specifier][,sync_file_id[:stream_specifier]] | [linklabel] (output)’
	指定一个或多个流作为输出文件的源。
	命令行中的第一个 -map 选项,指定输出流0的源,
	第二个 -map 选项,指定输出流1的源,等等。

添加歌曲信息和封面

软件 mp3tag

歌曲信息

  1. 右键 — 属性 — 详细信息 可以添加、更改歌曲信息

  1. 使用-metadata创建ID3 tags 【参考博客
  • ffmpeg -i .\\MUTE.mp3 -metadata data="2022-07-29" .\\MUTE_1.mp3
  • 清除音频文件所有tag信息 ffmpeg -i .\\MUTE.mp3 -map_metadata -1 .\\mute.mp3
    把value置空删除某个标签 ffmpeg -i .\\MUTE.mp3 -metadata genre="" .\\mute.mp3
  • 创建元数据文本文件 ffmpeg -i .\\TMElive\\MUTE.mp3 -f ffmetadata mute.txt
  • 把.txt写入元数据中 ffmpeg -i .\\TMElive\\MUTE.mp3 -i mute.txt -map_metadata 1 -c:a copy -id3v2_version 3 -write_id3v1 1 .\\mute.mp3

    -map_metadata 1 代表使用输入顺序为1的文件作为metadata,也就是 metadata.txt。c:a 代表codec audio的意思,这里用的是 copy。id3v2_version 3-write_id3v1 1 是为了对Windows兼容加上的。

;FFMETADATA1
=major_brand
date=2022
title=MUTE
album=TME live 夏日岐遇
album_artist=孟美岐
genre=Pop
artist=孟美岐
encoder=Lavf58.76.100

封面

ffmpeg -i .\\TMElive\\在他乡.mp3 -i .\\TMElive\\pic\\在他乡.jpg -c copy -map 0:a -map 1:v -metadata:s:v title="Album cover" -metadata:s:v comment="Cover (Front)" .\\TMElive\\在他乡_cover.mp3 —— 参考官网


拓展

  • 提高音量 ffmpeg -i .\\TMElive\\一生有你_fin.mp3 -filter:a “volume=5dB” 一生有你.mp3 但是不能损失质量
  • 怎么给音频文件添加歌词信息,并时间上同步起来
  • 实现音乐播放软件中的所有完整的歌曲信息

python + ffmpeg

video_path = 'D:/Users/Admin/Desktop/TMElive/MMQ_TMElive.mp4'
audio_path = 'D:/Users/Admin/Desktop/TMElive/audio/'
pic_path = 'D:/Users/Admin/Desktop/TMElive/pic/'
mdata = 'D:/Users/Admin/Desktop/TMElive/mdata.txt'
music = ["醒", "Miss", "If", "Alone", "重塑", "一生有你"]
start_time = ["00:02:03", "00:05:56", "00:10:06", " 00:33:41", "00:51:18", "01:02:51"]
duration = ["00:03:16.0", "00:04:00.0", "00:02:49.0", "00:03:25.0", "00:03:29.0", "00:02:33.0"]
    
for i,m in enumerate(music):
	ss = start_time[i]
	d = duration[i]
	pic = pic_path + m +".jpg"
	song = audio_path + m + "_1.mp3"
	out = audio_path + m + "_fin.mp3"
	# subprocess.run("ffmpeg -i %s -ss %s -t %s -vn -b:a 192k -ar 44100 -ac 2 -acodec libmp3lame -y %s" %(video_path, ss, d, song))
	# subprocess.run("ffmpeg -i %s -map_metadata -1 -c copy -y %s" %(song, out))
	# subprocess.run("ffmpeg -i %s -i %s -map_metadata 1 -c:a copy -id3v2_version 3 -write_id3v1 1 %s" %(song, mdata, out))
	subprocess.run("ffmpeg -i %s -i %s -c copy -map 0:a -map 1:v -metadata:s:v title=\\"Album cover\\" -metadata:s:v comment=\\"Cover (Front)\\" %s" %(song, pic, out))

使用ffmpeg从视频文件中提取音频文件视频抽帧和切割视频

目录

ffmpeg下载

使用ffmpeg从视频文件中提取音频文件

批量提取文件夹下多个视频文件的音频

使用ffmpeg从视频文件中提取视频帧

使用ffmpeg将按固定时长将视频切割成多个小片段

将分割得到的视频存放在新建文件夹下(这个我运行的时候好像有点问题,音频文件没有存放在新建的文件夹中)

批量处理多个视频

将输出文存储在文件夹中,命名与原视频一致


ffmpeg下载

先下载ffmpeg软件,可以参考下面这个链接,下载不了可以参考里面的评论区,我下载的时候参考过评论区的方法

Windows下下载安装ffmpeg - 知乎 (zhihu.com)

使用ffmpeg从视频文件中提取音频文件

MP3文件和WAV文件都是数字音频格式,由于两者的压缩比例和编码上面的差异,因此但是两者在文件大小和音质上有所不同。WAV是最接近无损的音乐格式,MP3文件通过对音频进行编码,去掉了某些部分,从而节省了空间。

使用 -f wav 输出wav格式音频文件:

E:\\>ffmpeg -i test.mp4 -vn -f wav output.wav

使用 -f mp3 输出mp3格式音频文件:

E:\\>ffmpeg -i test.mp4 -vn -f mp3 output.mp3

使用 -c:a mp3 输出mp3格式音频文件: 

E:\\>ffmpeg -i test.mp4 -vn -c:a mp3 output.mp3

试了一下提取mp3文件比提取wav文件慢一些,也不清楚两种提取mp3文件的方法有什么区别

  •  -i   输入文件,test.mp4 为原始视频文件;
  •  -vn  表示no video,输出不包含视频
  •  -f   输出文件格式
  • output.mp3 /output.wav为处理结果文件;

批量提取文件夹下多个视频文件的音频

在该目录下创建一个批处理文件(例如 music.bat)

在批处理文件中添加以下命令:

for %%a in (*.mp4) do ffmpeg -i %%a -vn -f wav %%~na.wav

使用ffmpeg从视频文件中提取视频帧

ffmpeg -i output_000.mp4 -r 8 -f image2 ./%05d.jpg
ffmpeg -i output_000.mp4 -vf fps=fps=8 -f image2 ./%05d.jpg

上面两个指令都可以

其中 -r 8 -vf fps=fps=8 均表示按 fps = 8 进行抽帧 

得到的结果如下图所示,但是我是将10s的视频进行提取,按理说应该是10*8=80帧,但是最终刚得到的是86张图片,这个10s的视频是按照下面的方法将大视频按照固定时长(10s)切割成小片段得到的,不太清楚这是怎么回事。

使用ffmpeg将按固定时长将视频切割成多个小片段

ffmpeg -i input_video.mp4 -c copy -map 0 -segment_time 60 -f segment output_%03d.mp4

这个命令将会把 "input_video.mp4" 这个视频按照60秒的时长切割成多个小片段,每个小片段保存在以 "output_001.mp4", "output_002.mp4", "output_003.mp4" ...等格式命名的文件中。

命令的解释:

  • -i input_video.mp4: 输入视频文件的路径和文件名。
  • -c copy: 使用“copy”编解码器,将视频从输入直接复制到输出,不做任何修改。
  • -map 0: 将输入文件中的所有流全部复制到输出文件中。
  • -segment_time 60: 视频分段的时间长度,这里设置为60秒。
  • -f segment: 指定输出格式为分段的视频格式。
  • output_%03d.mp4: 输出文件的名称格式,%03d 表示输出文件名以 3 位数字为格式,例如 output_001.mp4。

这个命令将会在同级目录下生成一系列的小片段视频文件,可以根据需要自定义参数来满足需求。

请注意,上述示例中的命令行参数 -c copy 表示使用“copy”编解码器,将视频从输入直接复制到输出,不做任何修改。如果你需要对视频进行转码或其他处理,请根据需要修改命令行参数。

将分割得到的视频存放在新建文件夹下(这个我运行的时候好像有点问题,音频文件没有存放在新建的文件夹中)

import os
import subprocess

input_video = "input_video.mp4"
output_folder = os.path.splitext(input_video)[0]  # 获取文件名去掉扩展名的部分作为输出文件夹名
os.makedirs(output_folder, exist_ok=True)  # 创建输出文件夹,如果已经存在则不会报错

command = ["ffmpeg", "-i", input_video, "-c", "copy", "-map", "0", "-segment_time", "60", "-f", "segment", os.path.join(output_folder, f"input_video_%03d.mp4"), "-reset_timestamps", "1", "-strftime", "1", "-v", "warning", "-stats", "-hide_banner", "-nostdin", "-y", "-vcodec", "copy", "-acodec", "copy", "-copyts", "-avoid_negative_ts", "make_zero"]
subprocess.run(command)

批量处理多个视频

首先,将 ffmpeg.exe 和所有需要处理的视频文件放在同一个目录下。

然后,在该目录下创建一个批处理文件(例如 batch_process.bat)。

在批处理文件中添加以下命令:

for %%a in (*.mp4) do ffmpeg -i "%%a" -c copy -map 0 -segment_time 60 -f segment "output_%%~na_%%03d.mp4"

这个命令将对该目录下的所有 mp4 文件进行处理。假设我们有一个名为 "video1.mp4" 的视频文件,该命令将生成以下文件:

  • output_video1_001.mp4
  • output_video1_002.mp4
  • output_video1_003.mp4
  • ...

其中 "video1" 是输入文件的名称。

保存并运行该批处理文件,它将会自动对目录下的所有 mp4 文件进行处理,生成相应的分段视频文件。

注意:如果视频文件不是以 mp4 格式结尾,可以将 *.mp4 替换为相应的格式。同时,如果需要修改分段视频文件的命名格式,可以根据自己的需求修改输出文件名的格式。

将输出文存储在文件夹中,命名与原视频一致

import glob
import os
import subprocess


def split_video(input_file, duration):
    output_folder = os.path.splitext(input_file)[0]
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    command = ['ffmpeg', '-i', input_file, '-c', 'copy', '-f', 'segment', '-reset_timestamps', '1', '-segment_time',
               str(duration), '-map', '0', os.path.join(output_folder, 'output_%03d.mp4')]
    subprocess.call(command)


if __name__ == '__main__':
    duration = 10 # 单位是秒,这里设置每个片段的时长为10秒
    input_folder = r"E:\\video"
    for input_video in glob.glob(os.path.join(input_folder, "*.mp4")):
        split_video(input_video, duration)

下面是代码运行的效果 

以上是关于FFmpeg从视频中提取音频的主要内容,如果未能解决你的问题,请参考以下文章

当我使用 ffmpeg 从视频中提取音频时,出现错误

在 django 中使用 FFMPEG 在网络上上传后从视频中提取 WAV 音频文件

使用 ffmpeg 和 python 将视频中的所有音频流提取到单独的音频文件中

如何使用 ffmpeg 提取 8khz 的音频

🔨FFmpeg 提取视频的音频

从具有单声道和缩混的文件中提取具有 5.1 音频的 PRORES 视频