Pythonpython3中urllib爬虫开发

Posted 奔跑的金鱼

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pythonpython3中urllib爬虫开发相关的知识,希望对你有一定的参考价值。

以下是三种方法

①First Method

最简单的方法

②添加data,http header

使用Request对象

③CookieJar

import urllib.request
from http import cookiejar
url =http://www.baidu.com

print("First Method")

response1 = urllib.request.urlopen(url)
#返回状态码
print(response1.getcode())
print(len(response1.read()))

print("Second Method")
request = urllib.request.Request(url)
request.add_header("uese-agent","Mazilla/5.0")
response2 = urllib.request.urlopen(url)
#返回状态码
print(response2.getcode())
print(len(response2.read()))

print("Third Method")
#声明一个CookieJar对象实例来保存cookie
cj = cookiejar.CookieJar()
#利用urllib.request库的HTTPCookieProcessor对象来创建cookie处理器,也就CookieHandler
handler = urllib.request.HTTPCookieProcessor(cj)
#通过CookieHandler创建opener
opener = urllib.request.build_opener(handler)
#此处的open方法同urllib.request的urlopen方法,也可以传入request
response3 = opener.open(url)
#返回状态码
print(response3.getcode())
print(response3.read())

以上是关于Pythonpython3中urllib爬虫开发的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫开发之urllib模块详细使用方法与实例全解

Python爬虫开发第1篇urllib2

python爬虫目录

爬虫基础框架 之urllib --- urllib post请求

Python爬虫入门之三urllib库的基本使用

python爬虫学习