最基础网页爬虫

Posted 激动的阿涛

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了最基础网页爬虫相关的知识,希望对你有一定的参考价值。

第一个网页文本爬虫程序(没有添加下载器):

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import os
 4 
 5 headers={User-Agent:"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (Khtml,like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
 6 url_begin= http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
 7 start_url=requests.get(url_begin,headers=headers)
 8 #print(start_url.text)
 9 Soup=BeautifulSoup(start_url.text,lxml)
10 link_list=Soup.find(div,class_="x-sidebar-left-content").find_all(a)
11 #print(link_list)
12 
13 for link in link_list:
14         url=http://www.liaoxuefeng.com + link[href]
15         html=requests.get(url,headers=headers)
16         html_Soup=BeautifulSoup(html.text,lxml)
17         title_list = html_Soup.find(div, class_="x-content").find_all(h4)
18         # print(title_list)
19         for title in title_list:
20             titlereal = title.get_text()
21             print(titlereal)
22 
23         content_list = html_Soup.find("div", class_="x-wiki-content").find_all(p)
24         for content in content_list:
25             # print(content)
26             contentreal = content.get_text()
27             print(contentreal)

 

 

 

 

第二个网页图片爬虫(引入os模块,可以将网页内容爬取到本地文件夹)

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import os
 4 import urllib
 5 import urllib3
 6 
 7 url= http://www.dbmeinv.com/?pager_oofset=1
 8 x=0
 9 
10 def crawl(url):
11     headers = {
12         User-Agent: "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTMl,like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
13     req=requests.get(url,headers=headers)
14 
15     Soup=BeautifulSoup(req.text,lxml)
16     link_list=Soup.find_all(img)
17     for girl in link_list:
18         link= girl.get(src)
19         print(link)
20 
21         global x
22         path=r/Users/wangxitao/Desktop/douban
23         local=os.path.join(path,image\%s.jpg%x)
24         urllib.request.urlretrieve(link,local)
25                                          #‘image\%s.jpg‘%x
26 
27         x+=1
28         print("正在下载第%s张"%x)
29 
30 for page in range(1,10):
31     page+=1
32     url=http://www.dbmeinv.com/?pager_offset=%d%page
33     crawl(url)
34 
35 print(爬取完毕)

 

以上是关于最基础网页爬虫的主要内容,如果未能解决你的问题,请参考以下文章

爬虫系列 2.2 爬虫基础2 -网页结构进阶

爬虫系列 2.2 爬虫基础2 -网页结构进阶

网页爬虫:零基础用爬虫爬取网页内容

网页爬虫:零基础用爬虫爬取网页内容

爬虫基础库

系统学习金融数据挖掘 之爬虫技术基础(附源代码)(网页结构基础)