[Python系列-19]:爬虫 - urllib.request.urlopen()和urllib.request.get()的使用区别

Posted 文火冰糖的硅基工坊

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[Python系列-19]:爬虫 - urllib.request.urlopen()和urllib.request.get()的使用区别相关的知识,希望对你有一定的参考价值。

作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing

本文网址:https://blog.csdn.net/HiWangWenBing/article/details/119799336


目录

第1章 urllib.request.urlopen

1.1 功能描述

1.2 函数原型

第2章 urllib.request.requests.get()

2.1 功能描述

 2.2 函数原型



第1章 urllib.request.urlopen

1.1 功能描述

打开URL 网址,url参数可以是一个字符串url或一个Request对象;

返回http.clientHTTPResponse 对象,包含一些常用函数:read()、readinto()、getheader()、getheaders()、fileno()及msg、version、status、reason、debuglevel和close属性。

其中,read() 函数后需要decode()函数,返回的网页内容没有解码。

在read()得到内容后通过encode()编码、再通过decode()使用对应的解码方式。

1.2 函数原型

urllib.request.urlopen (

        url,                     # 需要打开的网址

        data=None,      #Post 提交的数据, 默认为 None ,发送一个GET请求到指定的页面,当 data 不为 None 时, urlopen() 提交方式为 Post timeout:设置网站访问超时时间.

        [timeout, ]*,    # 超时时间

        cafile=None,  #存储文件名 

        capath=None,   #存储路径

        cadefault=False,

        context=None)

第2章 urllib.request.requests.get()

2.1 功能描述

请求网站的网址,返回get和post都返回一个Response对象。这个对象中有服务器返回的所有信息:响应头、状态码等,返回的网页部分会存在.content和.text 两个对象中:

  • content:返回字节码,二进制数据。有b' 标志
  • text:返回Unicode型数据,存的是BeautifulSoup根据猜测的编码方式将content内容编码成字符串。

打印出返回结果类型、状态码、编码方式、Cookie等内容

 2.2 函数原型

get(url,params=params,headers=headers)

作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing

本文网址:https://blog.csdn.net/HiWangWenBing/article/details/119799336

以上是关于[Python系列-19]:爬虫 - urllib.request.urlopen()和urllib.request.get()的使用区别的主要内容,如果未能解决你的问题,请参考以下文章

[Python系列-20]:爬虫 - urllib.request.urlopen(), 函数无法返回的解决办法

Python爬虫系列-Requests库详解

$python爬虫系列——一个简单的爬虫实例

爬虫系列

Python爬虫--Urllib库

python3网络爬虫学习——基本库的使用