Python爬虫3-----Urllib库的基本使用1

Posted 六里路

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫3-----Urllib库的基本使用1相关的知识,希望对你有一定的参考价值。

什么是Urllib

Urllib是python内置的HTTP请求库
包括以下模块
urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块
urllib.robotparser robots.txt解析模块

urlopen

关于urllib.request.urlopen参数的介绍:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url参数的使用

先写一个简单的例子:

import urllib.request  
‘‘‘‘‘ 
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据 
urlopen 方法用来打开一个url 
read方法 用于读取Url上的数据 
‘‘‘

response = urllib.request.urlopen(http://www.baidu.com)
print(response.read().decode(utf-8))

urlopen一般常用的有三个参数,它的参数如下:
urllib.requeset.urlopen(url,data,timeout)
response.read()可以获取到网页的内容,如果没有read(),将返回一个object对象

data参数的使用

上述的例子是通过请求百度的get请求获得百度,下面使用urllib的post请求
这里通过http://httpbin.org/post网站演示(该网站可以作为练习使用urllib的一个站点使用,可以
模拟各种请求操作)。

import urllib.parse
import urllib.request

data = bytes(urllib.parse.urlencode({word: hello}), encoding=utf8)
print(data)
response = urllib.request.urlopen(http://httpbin.org/post, data=data)
print(response.read())

这里就用到urllib.parse,通过bytes(urllib.parse.urlencode())可以将post数据进行转换放到urllib.request.urlopen的data参数中。这样就完成了一次post请求。
所以如果我们添加data参数的时候就是以post请求方式请求,如果没有data参数就是get请求方式

timeout参数的使用
在某些网络情况不好或者服务器端异常的情况会出现请求慢的情况,或者请求异常,所以这个时候我们需要给
请求设置一个超时时间,而不是让程序一直在等待结果。例子如下:

import urllib.request

response = urllib.request.urlopen(http://httpbin.org/get, timeout=1)
print(response.read())

运行之后我们看到可以正常的返回结果,接着我们将timeout时间设置为0.1
运行程序会提示如下错误

 

所以我们需要对异常进行抓取,代码更改为

import socket
import urllib.request
import urllib.error

try:
    response = urllib.request.urlopen(http://httpbin.org/get, timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print(TIME OUT)   #给个异常处理

 

以上是关于Python爬虫3-----Urllib库的基本使用1的主要内容,如果未能解决你的问题,请参考以下文章

爬虫第一篇基本库的使用——urllib

Python爬虫:urllib库的基本使用

Python爬虫之Urllib库的基本使用

python爬虫之 Requests库的基本使用

python爬虫---urllib库的基本用法

Python爬虫之Urllib库的基本使用