python爬虫--基本流程

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫--基本流程相关的知识,希望对你有一定的参考价值。

     基于python3的实现,获取网页的基础技术:request、urllib、selenium;解析网页的基础技术:re正则表达式、BeautifulSoup、和lxml;储存技术:数据库或者表格。

     python环境搭建:

1、pycharm;

2、anaconda,适合基础入门,自带很多包,则无需安装。

3、jupyter notebook。

之后博文中的环境都基于anaconda的spyder或pycharm。

用urllib爬取简单的网页

import urllib.request
url = "http://www.douban.com/"  
request=urllib.request.Request(url)  #请求
response = urllib.request.urlopen(request) #爬取结果
data=response.read()
data=data.decode(utf-8)  #设置解码方式
print(data)               #打印结果

 







鉴于很多网站有些反爬虫的设置,我们模拟浏览器登录网页,把爬取的数据下载到本地

headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ‘‘Chrome/51.0.2704.63 Safari/537.36‘} 

下载到本地,函数:

def saveFile(data):
    path = "C:\\Users\\leon\\Desktop\\02_douban.html"
    f = open(path,wb)
    f.write(data)
    f.close()

 


整体代码如下:
def saveFile(data):
    path = "C:\\Users\\leon\\Desktop\\02_douban.html"
    f = open(path,wb)
    f.write(data)
    f.close()
import urllib.request
url = "http://www.douban.com/"
headers = {User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)   
                        Chrome/51.0.2704.63 Safari/537.36}
request = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(request)
data=response.read()
data=data.decode(utf-8)
print(data)
saveFile(data)

 

    








以上是关于python爬虫--基本流程的主要内容,如果未能解决你的问题,请参考以下文章

scrapy按顺序启动多个爬虫代码片段(python3)

scrapy主动退出爬虫的代码片段(python3)

Python网络爬虫的基本流程与准备

Python 爬虫 4爬虫基本原理

Python 网络爬虫程序架构及运行流程

Python爬虫知识点——爬虫的基本原理