爬取斗图拉前5页图片,并创建相应的目录
Posted remoting-py
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬取斗图拉前5页图片,并创建相应的目录相关的知识,希望对你有一定的参考价值。
import requests import re import os class DouTuLaSpider: def __init__(self): self.url = ‘http://www.doutula.com/article/list/‘ self.heade = { ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/62.0.3202.94 Safari/537.36‘ } def get_imgUrl(self,pagenum): response = requests.get(self.url,headers=self.heade,params={‘page‘:pagenum}) print(response.url) html = response.text imageList = re.findall(‘data-original="(.*?)".*?alt="(.*?)"‘,html) return imageList def download_Img(self,imgList,page): floder = ‘第%d页‘%(page) if not os.path.exists(floder): os.mkdir(floder) os.chdir(floder) for url,title in imgList: title = re.sub(‘[??!,]‘,‘‘,title) + ‘.‘ + url.split(‘.‘)[-1] print(title) data = requests.get(url).content with open(title,‘wb‘) as f: f.write(data) os.chdir(‘..‘) def run(self,page): for page in range(1, page+1): imagList = self.get_imgUrl(page) self.download_Img(imagList, page) if __name__ == ‘__main__‘: doutula = DouTuLaSpider() doutula.run(5)
以上是关于爬取斗图拉前5页图片,并创建相应的目录的主要内容,如果未能解决你的问题,请参考以下文章