第5章网页下载器和urllib2模块

Posted 2020-10-02 怪咖在骚动

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第5章网页下载器和urllib2模块相关的知识，希望对你有一定的参考价值。

网页下载器：将互联网上URL对应的网页下载到本地的工具

通过网页下载器将互联网中的url网页，存储到本地或内存字符串

python有哪几种网页下载器？

1.urllib2 python官方基础模块

2.requests python第三方包更强大

urllib2下载网页方法1：最简洁方法

　　url-------------------------->urllib2.urlopen(url)

代码：

import urllib2

/#直接请求

response = urllib2.urlopne(‘http://www.baidu.com‘);

/#获取状态码，如果200表示获取成功

print.response.getcode();

/#读取内容

cont = response.read();

方法2：data、http、header

代码：

import urllib2;
#创建Request对象
request = urllb2.Request(url)
#添加数据
request.add_data(‘a‘,‘a‘)
#添加http的header
request.add_header(‘User-Agent‘,‘Mozilla/5.0‘)
#发送请求获取结果
response = urllib2.urlopen(request)

方法三：添加特殊情景的处理器

import urllib2,cookielib
#创建cookie容器
cj = cookielib.CookieJar()
#创建1个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
#给urllib2安装opener
urllib2.install_opener(opener)
#使用带有cookie的urllib2访问网页
response = urllib2.urlopen(‘http://www.baidu.com‘)

以上是关于第5章网页下载器和urllib2模块的主要内容，如果未能解决你的问题，请参考以下文章

python：爬虫

第 16 章 C 预处理器和 C 库（条件编译）

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用b(

urllib2模块的基本使用

python爬虫抓取数据

1.4. urllib2模块的基本使用

第5章 网页下载器和urllib2模块

第5章网页下载器和urllib2模块