[Python系列-19]:爬虫 - urllib.request.urlopen()和urllib.request.get()的使用区别
Posted 文火冰糖的硅基工坊
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[Python系列-19]:爬虫 - urllib.request.urlopen()和urllib.request.get()的使用区别相关的知识,希望对你有一定的参考价值。
作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing
本文网址:https://blog.csdn.net/HiWangWenBing/article/details/119799336
目录
第2章 urllib.request.requests.get()
第1章 urllib.request.urlopen
1.1 功能描述
打开URL 网址,url参数可以是一个字符串url或一个Request对象;
返回http.clientHTTPResponse 对象,包含一些常用函数:read()、readinto()、getheader()、getheaders()、fileno()及msg、version、status、reason、debuglevel和close属性。
其中,read() 函数后需要decode()函数,返回的网页内容没有解码。
在read()得到内容后通过encode()编码、再通过decode()使用对应的解码方式。
1.2 函数原型
urllib.request.urlopen (
url, # 需要打开的网址
data=None, #Post 提交的数据, 默认为 None ,发送一个GET请求到指定的页面,当 data 不为 None 时, urlopen() 提交方式为 Post timeout:设置网站访问超时时间.
[timeout, ]*, # 超时时间
cafile=None, #存储文件名
capath=None, #存储路径
cadefault=False,
context=None)
第2章 urllib.request.requests.get()
2.1 功能描述
请求网站的网址,返回get和post都返回一个Response对象。这个对象中有服务器返回的所有信息:响应头、状态码等,返回的网页部分会存在.content和.text 两个对象中:
- content:返回字节码,二进制数据。有b' 标志
- text:返回Unicode型数据,存的是BeautifulSoup根据猜测的编码方式将content内容编码成字符串。
打印出返回结果类型、状态码、编码方式、Cookie等内容
2.2 函数原型
get(url,params=params,headers=headers)
作者主页(文火冰糖的硅基工坊):https://blog.csdn.net/HiWangWenBing
本文网址:https://blog.csdn.net/HiWangWenBing/article/details/119799336
以上是关于[Python系列-19]:爬虫 - urllib.request.urlopen()和urllib.request.get()的使用区别的主要内容,如果未能解决你的问题,请参考以下文章