python爬虫Urllib库的基本使用

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫Urllib库的基本使用相关的知识,希望对你有一定的参考价值。

什么是Urllib

  Urllib是python内置的HTTP请求库
  包括以下模块
  urllib.request 请求模块
  urllib.error 异常处理模块
  urllib.parse url解析模块
  urllib.robotparser robots.txt解析模块

 

urlopen

  关于urllib.request.urlopen参数的介绍:
  urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url参数的使用

先写一个简单的例子:

import urllib.request

response = urllib.request.urlopen(http://www.baidu.com)
print(response.read().decode(utf-8‘))

urlopen一般常用的有三个参数,它的参数如下:
urllib.requeset.urlopen(url,data,timeout)
response.read()可以获取到网页的内容,如果没有read(),将返回如下内容

data参数的使用

上述的例子是通过请求百度的get请求获得百度,下面使用urllib的post请求
这里通过http://httpbin.org/post网站演示(该网站可以作为练习使用urllib的一个站点使用,可以
模拟各种请求操作)。

技术分享
import urllib.parse
import urllib.request

data = bytes(urllib.parse.urlencode({word‘: hello‘}), encoding=utf8)
print(data)
response = urllib.request.urlopen(http://httpbin.org/post‘, data=data)
print(response.read())
技术分享

 











以上是关于python爬虫Urllib库的基本使用的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫:urllib库的基本使用

Python爬虫入门之三urllib库的基本使用

python爬虫Urllib库的基本使用

Python爬虫入门:Urllib库的基本使用

Python爬虫3-----Urllib库的基本使用1

python爬虫---urllib库的基本用法