爬虫使用线程池爬取哔哩哔哩数据，只能打印出一页的数据，加了锁也不行，如何修改呢？

Posted 2023-04-21

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫使用线程池爬取哔哩哔哩数据，只能打印出一页的数据，加了锁也不行，如何修改呢？相关的知识，希望对你有一定的参考价值。

import requests
from lxml import etree
import time
from multiprocessing.pool import ThreadPool

def spider(url):
headers =
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

resopnse = requests.get(url=url, headers=headers)
page_text = resopnse.text
tree = etree.HTML(page_text)
li_list = tree.xpath('//*[@id="all-list"]/div[1]/div[2]/ul[2]/li')
all_list=[]
for li in li_list:
data =[]
play_url='https:'+li.xpath('./a/@href')[0]
name=li.xpath('./div/div/a//text()')
name=''.join(name)
number=li.xpath('./div//div[@class="tags"]//text()')[0].strip()
publish_time=li.xpath('./div//div[@class="tags"]/span[3]//text()')[0].strip()
publisher=li.xpath('./div//div[@class="tags"]/span[4]//text()')[0]
data.append([play_url+name+number+publish_time+publisher])
all_list.append(data)
print(all_list)
if __name__ == '__main__':
urls=[]
for i in range(1,3):
url = f'https://search.bilibili.com/all?keyword=python&page=i'
urls.append(url)
# print(urls)
pool=ThreadPool(5)
pool.map(spider,urls)
pool.close()
pool.join()