requests分块下载文件

Posted 2020-12-09 tjp40922

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了requests分块下载文件相关的知识，希望对你有一定的参考价值。

将下载或上传任务（一个文件或一个压缩包）人为的划分为几个部分，每一个部分采用一个线程进行上传或下载，如果碰到网络故障，可以从已经上传或下载的部分开始继续上传下载未完成的部分，而没有必要从头开始上传下载。用户可以节省时间，提高速度。

一、分割视频

1、分割的每个小部分的大小：

size = 1024 * 100 # 100k

2、获取视频大小：
当在请求上设置stream=True时，没有立即请求内容，只是获取了请求头。推迟下载响应体直到访问 Response.content 属性

headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0‘
}
resp = requests.get(url, headers=headers, stream=True)
content_length = resp.headers[‘content-length‘]

3、分割视频：
设置请求头里面的Range参数

可以分割成多少个视频：

count = int(content_length) // size

设置Range:

Range：告知服务端，客户端下载该文件想要从指定的位置开始下载,格式：

Range：告知服务端，客户端下载该文件想要从指定的位置开始下载,格式：

? ‘Range’: ‘bytes=start-end’。

? start开始位置， end结束位置。

　　代码：

range_liat = []
for i in range(count):
    start = i * size   # 开始位置
    # 结束位置
    if i == count - 1:
        end = content_length   # 最后的一部分视频
    else:
        end = start + size
    if i > 0:
        start += 1
    headers_range = {‘Range‘: f‘bytes={start}-{end}‘}
    range_list.append(headers_range)

　　技术图片

二、请求视频

1、设置请求头

for i, headers_range in enumerate(range_list):
    headers_range.update(headers)
    resp = requests.get(url, headers=headers_range)

2、保存视频

with open(f‘{i}‘, ‘wb‘) as f:
    f.write(resp.content)

三、断点续传

确保下载文件的文件夹里没有其他文件

1、获取保存视频的文件夹里面的文件的名称：

import os
f_list = os.listdir(path)

2、请求一小段视频时，先判断当前文件夹里是否存在，不存在才下载

if not f‘{i}‘ in ts_list:
    pass

四、合并视频

遍历小段视频保存的文件夹，按顺序保存到一个文件里就好了

import os

def file_merge(path, path_name):
    """
    :param path: 小段视频保存文件夹路径
    :param path_name: 合并后保存位置+视频名字+格式
    """
    ts_list = os.listdir(path)
    with open(path_name, ‘wb+‘) as fw:
        for i in range(len(ts_list)):
            # 小段视频路径
            path_name_i = os.path.join(path, f‘{i}‘)
            with open(path_name_i, ‘rb‘) as fr:
                buff = fr.read()
                fw.write(buff)
            # 删除文件
            os.remove(path_name_i)
    print(‘合并完成：‘, path)

五、完整代码：

1、requests版本，多进程，没有进度条

import os
import time
import requests
from multiprocessing.pool import Pool


def get_range(url):
    """获取分割文件的位置"""
    headers = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/81.0.4044.138 Safari/537.36‘
    }
    size = 1024 * 1000  # 把请求文件对象分割成每1000kb一个文件去下载
    res = requests.get(url, headers=headers, stream=True)
    content_length = res.headers[‘Content-Length‘]  # 141062
    count = int(content_length) // size

    headers_list = []
    for i in range(count):
        start = i * size
        if i == count - 1:
            end = content_length
        else:
            end = start + size
        if i > 0:
            start += 1

        rang = {‘Range‘: f‘bytes={start}-{end}‘}
        rang.update(headers)
        headers_list.append(rang)
    return headers_list


def down_file(url, headers, i, path):
    """
    :param url: 视频地址
    :param headers: 请求头
    :param i: 小段视频保存名称
    :param path: 保存位置
    """
    content = requests.get(url, headers=headers).content
    with open(f‘{path}/{i}‘, ‘wb‘) as f:
        f.write(content)


def file_merge(path, path_name):
    """
    :param path: 小段视频保存文件夹路径
    :param path_name: 合并后保存位置+视频名字+格式
    """
    ts_list = os.listdir(path)
    ts_list.sort()
    print(ts_list)
    with open(path_name, mode=‘ab+‘) as fw:
        for i in range(len(ts_list)):
            # 小段视频路径
            path_name_i = os.path.join(path, f‘{i}‘)
            with open(path_name_i, mode=‘rb‘) as fr:
                buff = fr.read()
                fw.write(buff)
            # 删除文件
            os.remove(path_name_i)
    print(‘合并完成：‘, path)


if __name__ == ‘__main__‘:
    start_time = time.time()
    url = ‘https://pic.ibaotu.com/00/51/34/88a888piCbRB.mp4‘
    header_list = get_range(url)
    path = ‘./test‘
    pool = Pool(8)  # 进程池
    if not os.path.exists(path):
        os.mkdir(path)

    for i, headers in enumerate(header_list):
        ts_list = os.listdir(path)
        if not f‘{i}‘ in ts_list:
            pool.apply_async(down_file, args=(url, headers, i, path))

    pool.close()
    pool.join()
    end_time = time.time()
    print(f"下载完成,共花费了{end_time - start_time}")

    file_merge(‘./test‘, "./test/merge.mp4")

2、asyncio版本，异步，有进度条

import asyncio
import os
from tqdm import tqdm
from aiohttp import ClientSession

headers = {
    ‘referer‘: ‘https://www.bilibili.com/video‘,
    ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:67.0) Gecko/20100101 Firefox/67.0‘
}
size = 1024 * 100  # 分割的每个视频长度


def get_range(content_length):
    """
    :param content_length: 视频长度
    :return: 请求头：Range
    """
    count = int(content_length) // size  # 分割成几个视频
    range_list = []
    for i in range(count):
        start = i * size

        if i == count - 1:
            end = content_length
        else:
            end = start + size
        if i > 0:
            start += 1
        rang = {‘Range‘: f‘bytes={start}-{end}‘}
        range_list.append(rang)
    return range_list


async def async_main(video_url, section_path):
    """
    分割视频，即设置请求头
    :param video_url: 视频地址
    :param section_path: 保存位置
    """
    async with ClientSession() as session:
        async with session.get(video_url, headers=headers) as resp:
            content_length = resp.headers[‘content-length‘]  # 获取视频长度
            range_list = get_range(content_length)

            sem = asyncio.Semaphore(50)   # 限制并发数量
            if not os.path.exists(section_path):
                os.mkdir(section_path)

            # 进度条
            with tqdm(total=int(content_length), unit=‘‘, ascii=True, unit_scale=True) as bar:
                down_list = os.listdir(section_path)
                tasks = []
                for i, headers_range in enumerate(range_list):
                    # 判断是否已经下载
                    if f‘{i}‘ not in down_list:
                        headers_range.update(headers)
                        task = down_f(session, video_url, headers_range, i, section_path, sem, bar)
                        tasks.append(task)
                    else:
                        bar.update(size)
                await asyncio.gather(*tasks)


async def down_f(session, video_url, headers_range, i, section_path, sem, bar):
    """下载"""
    async with sem:   # 限制并发数量
        async with session.get(video_url, headers=headers_range) as resp:
            chunks = b‘‘
            async for chunk in resp.content.iter_chunked(1024):
                chunks += chunk

            with open(f‘{section_path}{i}‘, ‘wb‘) as f:
                f.write(chunks)
                bar.update(size)  # 更新进度条


def main(video_url, section_path):
    loop = asyncio.get_event_loop()
    task = asyncio.ensure_future(async_main(video_url, section_path))
    loop.run_until_complete(task)


if __name__ == ‘__main__‘:
    url = ‘‘
    path = ‘G:/s/‘
    main(url, path)

    # 合并
    from f import file_merge
    file_merge(path, ‘G:/1.mp4‘)

原文链接：https://blog.csdn.net/m0_46652894/article/details/106155852

以上是关于requests分块下载文件的主要内容，如果未能解决你的问题，请参考以下文章

如何使用 Python urllib2 下载分块数据

python-爬虫-requests

使用 JavaScript 分块下载文件

在 .net Core 中使用 HttpClient 下载分块编码文件

如何使用 Qt 分块下载？

web大文件分块上传断点续传demo