爬虫学习： urllib教程与实践

Posted 2022-12-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫学习： urllib教程与实践相关的知识，希望对你有一定的参考价值。

文章目录

一、前言框架
二、网址请求

2.1 打开网址
2.2 超时设置
2.3 错误抓取

三、更深请求

3.1 打开网址
3.2 请求头添加
3.3 链接解析

四、Robots 协议
五、万能视频下载

一、前言框架

之前我一直没想教大家urlib，思考万分，还是要补一下这个教程。

我们来学一下爬虫之祖urlib，不管你什么模块都是起源于该模块。
urlib库有几个模块，依次如下：

request ：用于请求网址的模块
error：异常处理模块
parse：用于修改拼接等的模块
robotparser：用来判断哪些网站可以爬，哪些网站不可以爬

二、网址请求

2.1 打开网址

以请求我自己的博客为例子，我博客链接为：

我们使用urlib库中的request模块如下：

import urllib.request  

response = urllib.request.urlopen)  

print(response.read().decode(utf-8))#调用 read 方法可以得到返回的网页内容，打印网页内容

运行结果：

爬虫学习（2）：

留个问题：你可否去请求一下别的网址试试？比如你自己的博客？

我们接着来看看其它的问题：如何才知道自己请求网址成功？我可不想每次都把他打印出来才看自己成功没有。
我们使用status函数来查看，这个单词就是状态的意思，如果返回结果为200就是请求成功，404就是请求失败的意思。
假设我请求自己博客：

import urllib.request  
response = urllib.request.urlopen 
print(response.status)

运行：

爬虫学习（2）：

可以看到是200，代表请求成功了。那么我们来请求一个别的网址呢？比如我们现在来请求国外的facebook:

import urllib.request  
response = urllib.request.urlopen(https://www.facebook.com/)  
print(response.status)

运行：

爬虫学习（2）：

惊奇的是我请求成功了，不过我估计你们可能会请求得到404，这也没关系，正常的。

2.2 超时设置

我们只需要加上timeout参数即可，为什么我们要用超时设置，因为有些网站我们不能马上请求进入，有可能是自己网络原因，也有可能是对方服务器卡顿等原因，因此需要设置一下超过规定的时间就不去请求了。
举个例子：我要请求打开github不能超过十秒，如果超过十秒就不请求了。

import urllib.request  
response = urllib.request.urlopen(https://github.com/,timeout=10)  
print(response.status)

运行看看：

爬虫学习（2）：

显示time out意思就是超时打开错误，如果你把请求十秒钟改为30秒，再去试试能否成功？（毕竟国内上github会卡很正常）

2.3 错误抓取

前面我们遇到了请求超时，就会报错出一大堆，假如先去判是否请求成功，需要用try…except来获取报错信息，具体如下：

import socket  
import urllib.request  
import urllib.error  

try:  
    response = urllib.request.urlopen(https://github.com/, timeout=5)  
except urllib.error.URLError as e:  
    if isinstance(e.reason, socket.timeout):  
        print(请求超时)

运行看看：

爬虫学习（2）：

三、更深请求

3.1 打开网址

import urllib.request
request = urllib.request.Request(
response=urllib.request.urlopen(request)
print(response.read().decode(utf-8))

说一下每一行大概是什么。

第一行导入模块
第二行用Requests请求网址
第三行再用urlopen打开网址
第四行用read打印内容

运行看看：

爬虫学习（2）：

3.2 请求头添加

为什么要添加请求头，请求头的作用是模拟浏览器去爬取内容，主要是为了被反扒。
有个新词：反扒为什么会被反扒？因为有些网站是不允许你去爬取的，但是我们就是需要爬取内容，因此我们使用请求头来模拟进行。请求头的添加能帮助我们解决百分之八十的反扒，不用担心我，后面的反扒技术我都会教大家。
看个例子，我们已爬取CSDN首页为例子：

from urllib import request
url=
headers=User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/39.0.2171.71 Safari/537.36

req=request.Request(url=url,headers=headers)
response=request.urlopen(req)
print(response.read().decode(utf-8))

大概说一些每一行的例子:

第一行从库导入模块
第二行就是我们需要请求的网址
第三行就是我们的请求头，固定这个模式，不用去背，以后添加请求头复制粘贴就行
第四行就是使用请求头去请求网址
第五行：请求成功打开网址（urlopen翻译过来就是打开网址的意思啊）
第六行用read打印内容

3.3 链接解析

我直接以CSDN官网首页为例子。
1.urlparse

from urllib.parse import urlparse
s=urlparse(#解析的网址
print(type(s),s)#打印类型和解析结果

看看打印结果：

爬虫学习（2）：

分析下结果：
ParseResult这个类型对象，打印了六个部分结果：
scheme是协议，这里协议就是https
netloc是域名，域名是啥就步说了吧，自己百度
path是访问路径
params就是参数
query就是查询条件，一般用作get类型的url
fragment就是描点，用于定位页面内部下拉位置
所以网址的标准链接格式就是：

scheme：//netloc/path；params?query#fragment

这些能看懂一个网址什么组成的了吧
2.urlunparse
与第一个对立，他接受的参数是可迭代对象，对象长度必须是6

from  urllib.parse import urlunparse
data=[http,www.baidu.com,index.com,user,a=7,comment]
print(urlunparse(data))

结果如下：

爬虫学习（2）：

这就构造了一个url，当然随便构造一个url是不能正常访问的。对比上面的urlparse，一个是拆分url，这个就是构造url。
3.urlsplit
跟urlparse类似，知识返回结果只有五个，params合并到了path中

from urllib.parse import urlsplit
s=urlsplit
print(type(s),s)

老规矩还是以CSDN首页为例子，看打印结果：

爬虫学习（2）：

但是呢，SplitResult是元组类型，可以通过索取获得想要的，不用都打印出来：

from urllib.parse import urlsplit
s=urlsplit(
# print(type(s),s)
print(s.path)
print(s.netloc)
print(s[1])
print(s[3])

这样打印结果姐如下：

爬虫学习（2）：

4.urlunsplit()
跟上面那个方法类似，这个就是再把各个部分组合成完整的链接，长度必须是5，举例如下：

from urllib.parse import urlunsplit
data=[http,www.csdn.net,/,spm=1011.2124.3001.5359, ]
print(urlunsplit(data))

根据前面打印拆分结果，我再给它复原了，运行结果如下，又得到csdn首页链接了

爬虫学习（2）：

5.urljoin
就是对链接的补充合并，自己可以多打印几个试试

from urllib.parse import  urljoin
print(urljoin(http://www.baidu.com,index.html))
print(urljoin(http://www.baidu.com,http://www.baidu.com/index.html))

效果如下：

爬虫学习（2）：

6.urlencode
跟上面的类似，也是用于构造url
例子如下：

from urllib.parse import urlencode
parms=
    name:chuan,
    age:20

b_url=http://www.baidu.com?
url=b_url+urlencode(parms)
print(url)

结果：

爬虫学习（2）：

7.parse_qs

from urllib.parse import parse_qs
u=name=chuan&age=20
print(parse_qs(u))

parse_qs作用就是把得到的get请求参数字符串转为字典，这样便于好看理解。前面都是有序列化，这个就是反无序化。

爬虫学习（2）：

8.parse_sql

from urllib.parse import parse_qsl
u=name=chuan&age=20
print(parse_qsl(u))

爬虫学习（2）：

跟上面第七个方法类似，这个就是返回的列表，列表里装的元组，元组左边为名，右边为值
9.quote

from urllib.parse import quote
key=川川
url=http://www.baidu.com/?wd=+quote(key)
print(url)

这个很常见，我的理解就是把中文转换为url格式。对中文进行编码。

爬虫学习（2）：

10.unquote

from urllib.parse import unquote
url=http://www.baidu.com/?wd=%E5%B7%9D%E5%B7%9D
print(unquote(url))

它就可以把被编码后的中文还原。

爬虫学习（2）：

这个模块差不多就这些了，学习爬虫慢慢来，不要一蹴而就。有了这个模块就可以对url解析和构造了。

四、Robots 协议

虽然我在教大家爬虫，但是我还是要声明一下不要什么都去爬，所以我们来看下哪些可以爬，哪些不可以爬，这就要根据robots协议了。（当然我们可能不会完全遵守他的协议，不然爬虫也没啥意思了，自己把握分寸）

首先我们来学会一下如何查看协议，比如我们要访问CSDM网址：

查看协议就是：在网址后面加上robots.txt

输入回车：

爬虫学习（2）：

看看这个协议的含义：

user-agent：后面是蜘蛛的名称，表示一种代理的意思；

disallowed: 表示禁止，后面的内容蜘蛛禁止抓取；

allowed ：表示允许蜘蛛抓取后面文件的内容；

好家伙，全部不允许爬，哈哈哈，没事，适当爬可以的。

五、万能视频下载

具体我就不说了，这个可以下载几乎百分之就是的网上和平台的视频，自己去尝试（请悄悄使用）
下载安装包：

pip install you_get

与代码同级目录新建一个mp4文件夹。
源代码如下：

import sys
from you_get import common as you_get#  导入you-get库

#  设置下载目录
directory=rmp4\\\\
#  要下载的视频地址
url=https://music.163.com/#/mv?id=14306186
#  传参数
sys.argv=[you-get,-o,directory,--format=flv,url]
you_get.main()

效果：

爬虫学习（2）：

以上是关于爬虫学习： urllib教程与实践的主要内容，如果未能解决你的问题，请参考以下文章

小爬虫学习—— urllib 与 urllib3

Python3网络爬虫：利用urllib进行简单的网页抓取

python爬虫学习

python3中使用urllib进行https请求

Python3爬虫视频学习教程

python爬虫——urllib使用代理