基本urllib库

Posted c-pyday

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基本urllib库相关的知识,希望对你有一定的参考价值。

urlib库

urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。

urlopen函数:

在Python3的urllib库中,所有和网络请求相关的方法,被集到url1ib.request横块下面了,以先来看下orlopen数基本的使用:
fron urllib import request         #导入urllib模块下的request包

resp = request.urlopen("https://www.baidu.com")    #打开url 

print(resp.read())      #读出resp对象的代码(bytes数据类型) 

#print(resp.read().decode(‘utf-8‘))  #bytes转str数据类型

实际上,使用刻宽器访问百度,右键查看源代码。你会发现,跟我们刚才打印出来的数据有的或许不同,但使用下面代码是相同的。原因是返回回来的值是bytes数据类型,我们要把他转换为str类型,才能更清楚的阅读代码。也就是说,上面的三行代码就已经帮我们把百度的首页的全部代码爬下来了。一个基本的ur请求对应的python代码真的非常简单。

urlretrieve函数:

urlretrieve函数简单来讲就是将一个网页或网页上的某一元素保存到本地。用法实现:

技术分享图片

关于url编码和解码问题:

 在上面说过read()读出来是一个bytes数据类型,所以,如需bytes与str数据类型的转换,有:

bytes-->decode-->str

str-->encode-->bytes

 


以上是关于基本urllib库的主要内容,如果未能解决你的问题,请参考以下文章

基本urllib库

urllib库基本使用

urllib库

urllib库详解

Urllib库基本使用

python爬虫 urllib库基本使用