妹子图爬虫
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了妹子图爬虫相关的知识,希望对你有一定的参考价值。
比较久的轮子,试了一下还能用,开开开...车。还有一个配合删除重复图片的轮子找不到了,应该是对图片求了hash,然后查表去重的思路。
需要:python2;requests模块。需要建一个和代码同级目录的“pics”文件夹。
注意:差评隐藏的图也一并爬了;延时是减小动静,求快可去;写图片不能用“a”,不然gif是静态的一帧图。
1 import requests,re,time 2 3 url = ‘http://jandan.net/ooxx‘ 4 r = requests.get(url) 5 if(r.status_code == 200): 6 counts = re.findall(‘current-comment-page">.*</s‘,r.text)[0] 7 cou = re.findall(‘[0-9]{1,4}‘,counts) 8 cou = int(cou[0]) 9 for i in range(1,cou+1): #range()范围是起始页到终止页 10 url = ‘http://jandan.net/ooxx/page-‘+str(i)+‘#comments‘ 11 r = requests.get(url) 12 pic = re.findall(‘(src="/.*?jpg|src="/.*?gif|src="/.*?png)‘,r.text) 13 print i 14 for j in pic: 15 url = ‘http://‘+j[7:] 16 r = requests.get(url) 17 name1 = re.findall(‘([a-zA-Z0-9]*?.jpg|[a-zA-Z0-9]*?.gif|[a-zA-Z0-9]*?.png)‘,j[-36:]) 18 with open(‘./pics/‘+name1[0], "wb") as code: 19 try: 20 code.write(r.content) 21 except: 22 pass 23 code.close() 24 time.sleep(0.5) 25 time.sleep(1)
以上是关于妹子图爬虫的主要内容,如果未能解决你的问题,请参考以下文章