Pyton小甲鱼爬虫4-XXOO

Posted 2020-09-09 猪猪宝丫

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Pyton小甲鱼爬虫4-XXOO相关的知识，希望对你有一定的参考价值。

 1 import urllib.request
 2 import os
 3 
 4 def open_url(url):
 5     req=urllib.request.Request(url)
 6     req.add_header(‘User-Agent‘,‘Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/50.0.2661.94 Safari/537.36‘)
 7     response=urllib.request.urlopen(url)
 8     html=response.read()
 9 
10     print(url)
11     return html
12 
13 def get_page(url):
14     html=open_url(url).decode(‘utf-8‘)
15     
16     a=html.find(‘current-comment-page‘)+23 #23代表偏移
17     b=html.find(‘]‘,a) #a代表起始位置
18     return html[a:b]
19     
20 def find_imgs(url):
21     html=open_url(url).decode(‘utf-8‘)
22     img_addrs=[]
23    #图片的左右边界
24     a=html.find(‘img src=‘)
25     while a!=-1:
26         b=html.find(‘.jpg‘,a,a+255)
27         if b!=-1:
28             img_addrs.append(html[a+9:b+4])
29         else:
30             b=a+9
31         a=html.find(‘img src=‘,b)
32    
33     for each in img_addrs:
34         print(each)
35     return img_addrs
36 
37 def save_imgs(folder,img_addrs):
38     for each in img_addrs:
39         filename=each.split(‘/‘)[-1]
40         with open(filename,‘wb‘)as f:
41             img=open_url(each)
42             f.write(img)
43 
44 def download_mm(folder=‘OOXX‘,pages=10):
45     os.mkdir(folder)
46     os.chdir(folder)
47 
48     url="http://jandan.net/ooxx/"
49     page_num=int(get_page(url))
50 
51     for i in range(pages):
52         page_num-=i
53         page_url=url+‘page-‘+str(page_num)+‘#comments‘
54         img_addrs=str(‘http‘)+find_imgs(page_url)
55         save_imgs(folder,img_addrs)
56 
57 if __name__==‘__main__‘:
58     download_mm()

以上是关于Pyton小甲鱼爬虫4-XXOO的主要内容，如果未能解决你的问题，请参考以下文章

Pyton小甲鱼魔法方法

小甲鱼第六天 p66- python

Python3零基础入门学习视频+源码+课件+习题-小甲鱼

pyton简单网络爬虫，aspx网站中form使用到了__VIEWSTATE__EVENTVALIDATIONcookie来验证的提交

python之小甲鱼教程 Easygui 篇

学习日记:Python爬虫-1