Pythonpython3中urllib爬虫开发
Posted 奔跑的金鱼
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pythonpython3中urllib爬虫开发相关的知识,希望对你有一定的参考价值。
以下是三种方法
①First Method
最简单的方法
②添加data,http header
使用Request对象
③CookieJar
import urllib.request from http import cookiejar url =‘http://www.baidu.com‘ print("First Method") response1 = urllib.request.urlopen(url) #返回状态码 print(response1.getcode()) print(len(response1.read())) print("Second Method") request = urllib.request.Request(url) request.add_header("uese-agent","Mazilla/5.0") response2 = urllib.request.urlopen(url) #返回状态码 print(response2.getcode()) print(len(response2.read())) print("Third Method") #声明一个CookieJar对象实例来保存cookie cj = cookiejar.CookieJar() #利用urllib.request库的HTTPCookieProcessor对象来创建cookie处理器,也就CookieHandler handler = urllib.request.HTTPCookieProcessor(cj) #通过CookieHandler创建opener opener = urllib.request.build_opener(handler) #此处的open方法同urllib.request的urlopen方法,也可以传入request response3 = opener.open(url) #返回状态码 print(response3.getcode()) print(response3.read())
以上是关于Pythonpython3中urllib爬虫开发的主要内容,如果未能解决你的问题,请参考以下文章
python爬虫开发之urllib模块详细使用方法与实例全解