用Python多线程实现生产者消费者模式爬取斗图网的表情图片

Posted 2020-11-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了用Python多线程实现生产者消费者模式爬取斗图网的表情图片相关的知识，希望对你有一定的参考价值。

什么是生产者消费者模式

某些模块负责生产数据，这些数据由其他模块来负责处理（此处的模块可能是：函数、线程、进程等）。产生数据的模块称为生产者，而处理数据的模块称为消费者。在生产者与消费者之间的缓冲区称之为仓库。生产者负责往仓库运输商品，而消费者负责从仓库里取出商品，这就构成了生产者消费者模式。

生产者消费者模式的优点

解耦
假设生产者和消费者分别是两个线程。如果让生产者直接调用消费者的某个方法，那么生产者对于消费者就会产生依赖（也就是耦合）。如果未来消费者的代码发生变化，可能会影响到生产者的代码。而如果两者都依赖于某个缓冲区，两者之间不直接依赖，耦合也就相应降低了。
并发
由于生产者与消费者是两个独立的并发体，他们之间是用缓冲区通信的，生产者只需要往缓冲区里丢数据，就可以继续生产下一个数据，而消费者只需要从缓冲区拿数据即可，这样就不会因为彼此的处理速度而发生阻塞。
支持忙闲不均
当生产者制造数据快的时候，消费者来不及处理，未处理的数据可以暂时存在缓冲区中，慢慢处理掉。而不至于因为消费者的性能造成数据丢失或影响生产者生产。

实例

#!/usr/bin/python
# -*- coding: utf-8 -*-
# @Time    : 2017/12/4 16:29
# @Author  : YuLei Lan
# @Email   : [email protected]
# @File    : urls.py
# @Software: PyCharm

import requests
import os
from urllib.request import urlretrieve
from bs4 import BeautifulSoup
import threading

BASE_PAGE_URL = ‘http://www.doutula.com/photo/list/?page=‘
PAGE_URL_LIST = []  # 所有分页的列表
FACE_URL_LIST = []  # 所有表情的url列表
gLock = threading.Lock()

def get_page_url():
    for i in range(1, 2):
        url = BASE_PAGE_URL + str(i)
        PAGE_URL_LIST.append(url)

def procuder():
    """
        生产者
        不断生产出所有的可下载的img_url地址
    """

    while len(PAGE_URL_LIST) != 0:  # 不能使用for循环
        gLock.acquire()
        page_url = PAGE_URL_LIST.pop()
        gLock.release()

        response = requests.get(page_url)
        text = response.text
        soup = BeautifulSoup(text, ‘lxml‘)
        img_list = soup.find_all(‘img‘, attrs={‘class‘: ‘img-responsive lazy image_dta‘})

        gLock.acquire()
        for img in img_list:
            img_url = img[‘data-original‘]
            if not img_url.startswith(‘http:‘):
                img_url = ‘http:{}‘.format(img_url)
            FACE_URL_LIST.append(img_url)
        gLock.release()

def customer():
    """ 消费者 """

    while True:
        if len(FACE_URL_LIST) == 0:
            continue
        else:
            img_url = FACE_URL_LIST.pop()
            tmp_list = img_url.split(‘/‘)
            filename = tmp_list.pop()
            path_file = os.path.join(‘images‘, filename)
            urlretrieve(img_url, filename=path_file)

def main():
    for i in range(3):
        th = threading.Thread(target=procuder)
        th.start()

    for i in range(5):
        th = threading.Thread(target=customer)
        th.start()

if __name__ == ‘__main__‘:
    get_page_url()
    main()

以上是关于用Python多线程实现生产者消费者模式爬取斗图网的表情图片的主要内容，如果未能解决你的问题，请参考以下文章

多线程爬取斗图网站，赶紧上车

Python3 爬虫U28_多线程爬取斗图啦的表情包

用生产者消费者模式爬取斗图吧，一次性收获超多表情包python爬虫入门进阶（11）

Python-爬取斗图啦网站

不用正则表达式，爬取斗图啦