python 爬虫下载视频 并 安装使用 ffmpeg 合并ts视频文件 使用16进制 修改文件头类型

Posted fuchto

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 爬虫下载视频 并 安装使用 ffmpeg 合并ts视频文件 使用16进制 修改文件头类型相关的知识,希望对你有一定的参考价值。

示例:私聊获取示例链接

第一步找到 视频资源接口

这是m3u8的资源 获取接口

 使用 postman 模拟发送 请求

发现无法获取到数据 报错 403 

查看请求头发现  还有其他请求参数

设置请求头

 在pyhton 中 使用request 请求

 获取到资源文档 发现 链接内容都是 ts文件 采用多线程下载 ts文件


# 采用线程池下载m3u8里的ts
def down_ts():
    # 读取 文件内容
    with open("./hhls.m3u8", "r", encoding="utf-8") as f:
        # n = 0
        # 创建 10 个线程
        with ThreadPoolExecutor(10) as t:
            # 循环 文件内容
            for n, line in enumerate(f):
                line = line.strip()
                # print(line)
                # 判断是否是忽略内容
                if line.startswith("#"):
                    # 是则跳过循环
                    continue
                #     提交线程
                t.submit(ts_video, n, line)

下载方法

# 下载ts视频 ./hhls 为下载ts视频存放的路径
def ts_video(n, line):

    headers = 
        'origin' : 'https://xxxxx',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/104.0.0.0 Safari/537.36',
    
    resp3 = requests.get(headers=headers, url=line)
    print(resp3.status_code)
    with open(f"./hhls/n.ts", "wb+") as f:
        f.write(resp3.content)

 视频下载完成之后 则需要将 ts 文件 合并成MP4 文件 

这时则需要使用到 ffmpeg  

ffmpeg 安装步骤

下载成功后解压即可


 

 执行 合并视频代码

def movie_video():
    filePath = "./hhls"
    # 获取当前文件夹下 使用文件名称
    file_list = os.listdir(filePath)
    print(file_list)
    li = []
    for file in file_list:
        # 字符串截取
        file = file.split(".")[0]
        # 添加进 列表
        li.append(int(file))
        # 列表进行排序
        li.sort()
    ts_file_name = []
    # 循环列表
    for i in li:
        i = str(i) + ".ts"
        # 添加 文件名进入列表
        ts_file_name.append(i)
    #     创建或打开文件 执行写入
    with open("./hhls/file_list.txt", "w+") as f:
        # 循环 文件名列表
        for file in ts_file_name:
            # 循环写入文件
            f.write("file ''\\n".format(file))
    print("file_list.txt已生成")
    txt_file = "./hhls/file_list.txt"
    mp4 = "./hhls/hhls.mp4"
    # 执行合并命令
    cmd = f"ffmpeg -f concat -i " + txt_file + " -c copy " + mp4
    print(cmd)
    try:
        # 执行命令
        os.system(cmd)
    except Exception as e:
        print(e)
    print("done")

发现报错乱码

 乱码解决方法 在 pycharm 中 修改配置 打开 file 下 settings 中 搜索  file encodings 修改字符集为 GBK 即可

 

 这是由于没有将 ffmpeg 添加到环境变量导致

回到桌面 右键点击此电脑 点击属性  添加系统环境变量 ffmpeg.exe 所在的文件位置即可

 打开cmd 执行命令 ffmpeg -v 查看是否添加成功

添加成功重启 pycharm 编辑器 即可

 重新运行   合并ts文件时报错 

Could not find tag for codec bmp in stream #0, codec not currently supported in container
Could not write header for output file #0 (incorrect codec parameters ?): Invalid argument
Error initializing output stream 0:0 -- 

这种是利用图床来存储视频切片 文件前被增加了BMP的header信息,导致ffmpeg错误地识别为BMP图片,自然不能合并了。 

其实他就是 ts文件,被改成.bmp 后缀,放到图床,达到白嫖图床的目的 

那么如何解决这个问题呢 

使用16进制查看器WinHex 编辑  删除

47  40 11 之前的数据即可  

片段示例

12.ts 文件 16进制数据

删除 bmp头后 执行合并成功

 

png 头部信息 ts片段数据 

常用文件格式十六进制文件头
JPEG (jpg),文件头:FFD8FF
PNG (png),文件头:89504E47
GIF (gif),文件头:47494638
TIFF (tif),文件头:49492A00
Windows Bitmap (bmp),文件头:424D
CAD (dwg),文件头:41433130
Adobe Photoshop (psd),文件头:38425053
Rich Text Format (rtf),文件头:7B5C727466
XML (xml),文件头:3C3F786D6C
HTML (html),文件头:68746D6C3E
Email [thorough only] (eml),文件头:44656C69766572792D646174653A
Outlook Express (dbx),文件头:CFAD12FEC5FD746F
Outlook (pst),文件头:2142444E
MS Word/Excel (xls.or.doc),文件头:D0CF11E0
MS Access (mdb),文件头:5374616E64617264204A
WordPerfect (wpd),文件头:FF575043
Adobe Acrobat (pdf),文件头:255044462D312E
Quicken (qdf),文件头:AC9EBD8F
Windows Password (pwl),文件头:E3828596
ZIP Archive (zip),文件头:504B0304
RAR Archive (rar),文件头:52617221
Wave (wav),文件头:57415645
AVI (avi),文件头:41564920
Real Audio (ram),文件头:2E7261FD
Real Media (rm),文件头:2E524D46
MPEG (mpg),文件头:000001BA
MPEG (mpg),文件头:000001B3
Quicktime (mov),文件头:6D6F6F76
Windows Media (asf),文件头:3026B2758E66CF11
MIDI (mid),文件头:4D546864

 那么问题来了 如何在代码中实现呢

示例:

 # bmp标头文件示例
    f = open(f'./hhls/648.ts','rb')# 二进制读
    # 读取文件流
    a = f.read()# 打印读出来的数据
    # 转换16进制
    hexstr = binascii.b2a_hex(a)
    # 转换成 字符串
    hexstr = hexstr.decode('UTF-8')
    # print(hexstr)
    #判断是否 存在 特定标头
    header = ['FFD8FF','89504E47','47494638','424D']
    for value in header:
        # 搜索 判断16进制内容是否 存在 特定标头
       if hexstr.startswith(value.lower()) :
           # 进行字符串截图
           new_hexstr = hexstr[len(value):]
           # 字符串转为bytes 类型 数据
           new_hexstr = bytes.fromhex(new_hexstr)
           f = open(f'./hhls/648.ts', 'wb') # 二进制写模式
           f.write(new_hexstr) # 二进制写入

成功合成之后

 

发现 视频时长不正确 在命令行 执行合并 发现 482.ts文件 有问题无法合并

打开文件发现文件资源有问题 属于无效文件

 查看网站后发现 网站资源也丢失这一片段

 解决方法 删除 482.ts 文件 重新执行 脚本

修改 file_list.txt 删除  file '482.ts' 即可 

 重新执行合并命令

 

 合并ts 资源成功

下载方法 优化 后 

# 下载ts视频 ./hhls 为下载ts视频存放的路径   
def ts_video(n, line):

    headers = 
        'origin' : 'https://xxxxx',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36',
    
    resp3 = requests.get(headers=headers, url=line)
    print(resp3.status_code)
    with open(f"./hhls/n.ts", "wb+") as f:
        f.write(resp3.content)

    # bmp标头文件示例
    f = open(f'./hhls/n.ts','rb')# 二进制读
    # 读取文件流
    a = f.read()# 打印读出来的数据
    # 转换16进制
    hexstr = binascii.b2a_hex(a)
    # 转换成 字符串
    hexstr = hexstr.decode('UTF-8')
    # print(hexstr)
    #判断是否 存在 特定标头
    header = ['FFD8FF','89504E47','47494638','424D']
    for value in header:
        # 搜索 判断16进制内容是否 存在 特定标头
       if hexstr.startswith(value.lower()) :
           # 进行字符串截图
           new_hexstr = hexstr[len(value):]
           # 字符串转为bytes 类型 数据
           new_hexstr = bytes.fromhex(new_hexstr)
           f = open(f'./hhls/n.ts', 'wb') # 二进制写模式
           f.write(new_hexstr) # 二进制写入
    print(n, "下载完成")

完整代码示例  

示例网站地址:私聊获取

import requests
import os
import binascii
from concurrent.futures import ThreadPoolExecutor

def download_video():
    headers = 
        'origin' : 'xxxxxx',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36',
    
    # 当前链接只有 几分钟 时效 请去示例网站地址 实时获取
    link = 'xxxxxx'
    resp = requests.get(headers=headers,url=link)
    # print(resp)
    m3u8text = resp.text
    with open("hhls.m3u8", "w") as f:
        f.write(m3u8text)
    print("hhls.m3u8下载完成")



# 采用线程池下载m3u8里的ts
def down_ts():
    # 读取 文件内容
    with open("./hhls.m3u8", "r", encoding="utf-8") as f:
        # n = 0
        # 创建 10 个线程
        with ThreadPoolExecutor(10) as t:
            # 循环 文件内容
            for n, line in enumerate(f):
                line = line.strip()
                # print(line)
                # 判断是否是忽略内容
                if line.startswith("#"):
                    # 是则跳过循环
                    continue
                #     提交线程
                t.submit(ts_video, n, line)


# 下载ts视频 ./hhls 为下载ts视频存放的路径
def ts_video(n, line):

    headers = 
        'origin' : 'xxxxxx',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36',
    
    resp3 = requests.get(headers=headers, url=line)
    print(resp3.status_code)
    with open(f"./hhls/n.ts", "wb+") as f:
        f.write(resp3.content)

    # bmp标头文件示例
    f = open(f'./hhls/n.ts','rb')# 二进制读
    # 读取文件流
    a = f.read()# 打印读出来的数据
    # 转换16进制
    hexstr = binascii.b2a_hex(a)
    # 转换成 字符串
    hexstr = hexstr.decode('UTF-8')
    # print(hexstr)
    #判断是否 存在 特定标头
    header = ['FFD8FF','89504E47','47494638','424D']
    for value in header:
        # 搜索 判断16进制内容是否 存在 特定标头
       if hexstr.startswith(value.lower()) :
           # 进行字符串截图
           new_hexstr = hexstr[len(value):]
           # 字符串转为bytes 类型 数据
           new_hexstr = bytes.fromhex(new_hexstr)
           f = open(f'./hhls/n.ts', 'wb') # 二进制写模式
           f.write(new_hexstr) # 二进制写入
    print(n, "下载完成")


def movie_video():
    filePath = "./hhls"
    # 获取当前文件夹下 使用文件名称
    file_list = os.listdir(filePath)
    print(file_list)
    li = []
    for file in file_list:
        # 字符串截取
        file = file.split(".")[0]
        # 添加进 列表
        li.append(int(file))
        # 列表进行排序
        li.sort()
    ts_file_name = []
    # 循环列表
    for i in li:
        i = str(i) + ".ts"
        # 添加 文件名进入列表
        ts_file_name.append(i)
    #     创建或打开文件 执行写入
    with open("./hhls/file_list.txt", "w+") as f:
        # 循环 文件名列表
        for file in ts_file_name:
            # 循环写入文件
            f.write("file ''\\n".format(file))
    print("file_list.txt已生成")
    txt_file = "./hhls/file_list.txt"
    mp4 = "./hhls/hhls.mp4"
    # 执行合并命令
    cmd = f"ffmpeg -f concat -i " + txt_file + " -c copy " + mp4
    print(cmd)
    try:
        # 执行命令
        os.system(cmd)
    except Exception as e:
        print(e)
    print("done")


if __name__ == '__main__':
    download_video()
    down_ts()
    movie_video()

以上是关于python 爬虫下载视频 并 安装使用 ffmpeg 合并ts视频文件 使用16进制 修改文件头类型的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫下载视频

智普教育Python培训之Python开发视频教程网络爬虫实战项目

Python爬虫-----下载B站视频

一段完整的批量下载网站视频资源的python爬虫代码(附注解)

使用Python编写简单网络爬虫抓取视频下载资源

Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中