python3 爬虫4--解析链接

Posted 2020-10-06

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python3 爬虫4--解析链接相关的知识，希望对你有一定的参考价值。

1.urlparse()

属于urllib.parse

在urlparse世界里面，一个标准的URL链接格式如下

scheme://nrtlooc/path;paramters?query#fragment

所以，一个url=‘http://www.baidu.com/index.html;user?id=5#comment‘

我们使用urlparse的话，就可以被分成6个部分

（scheme=‘http‘,netloc=‘www.baidu.com‘,path=‘index.html‘paramters=‘user‘.query=‘id=5‘,fragment=‘comment‘）

具体操作如下：

res=urlparse(‘https://www.baidu.com/baidu?wd=query&tn=monline_dg&ie=utf-8‘)

print(res)

urlparse还有带参数的是使用方法

res=urlparse(urlstring,scheme=‘ ‘,allow_fragment=True)

scheme是默认的协议，如果urlstring没有带协议，则使用scheme中的协议，若是有，则仍然使用urlstring中协议

allow_fragment即是否忽略fragment,如果是False，fragment就被解析为path、paramenters或者query中的一部分

2，urlunparse()

属于urllib.parse

正如其名字所示，ulrunparse()是urlparse()的逆过程

例如：data=[‘http‘,‘www.baidu.com‘,‘index.html‘,‘user‘,‘a=6‘,‘comment‘]

print(urlunparse(data))

这样就完成了urlstring的构造

3urlsplit()

from urllib.parse import urlsplit

与urlparse类似，但urlsplict把urlstirng分割成5个部分，其中少了paramters

res=urlsplict(‘http://www.baidu.com/index.html;user?id=5#comment‘)

print(res)

4urlunsplit()

用法与urlunparse()类似

5urljoin()

属于urllib.parse

urljoin()也是一种生成urlstring的方式,这种生成方法是提供两个链接，分别是base_url,和新链接，分析base_url中的scheme,netloc,path这三个部分，然后对新链接缺失的部分进行补充，新链接里面若是有，则不补充，不提换，最后返回新链接，举个例子

print(urljoin(‘http://www.baidu.com‘，‘wd=query&tn=monline_dg&ie=utf-8‘))

返回结果是：

http://www.baidu.com/wd=query&tn=monline_dg&ie=utf-8
6urlencode()

from urllib,parse import urlencode

可以将字典类型转换为url参数举例来说

param={‘name‘:‘lihua‘,‘age‘:‘23‘}

base_url=‘http://www.baidu.com‘

url=base_url+urlencode(param)

print(url)

7parse_qs()

parse_qs()是parse_encode()的逆过程（为什么名字的区别这么大，我也是不得其解）

from urllib.parse import parse_qs

query=‘wd=query&tn=monline_dg&ie=utf-8‘

print(parse_qs(query))

输出结果是：{‘tn‘: [‘monline_dg‘], ‘wd‘: [‘query‘], ‘ie‘: [‘utf-8‘]}
这样就转换称为字典类型了

8pars_qsl()

from urllib.pase import parse_qsl：将参数转换成为元组组成的列表

query=‘wd=query&tn=monline_dg&ie=utf-8‘

print(parse_qsl(query))

输出结果：[(‘wd‘, ‘query‘), (‘tn‘, ‘monline_dg‘), (‘ie‘, ‘utf-8‘)]

9quote

quote()方法可以将内容转换为URL编码格式，有时候URL带中文可能导致乱码，这样就需要quote

from urllib。parse import quote

keyword=‘美女‘

url=‘https://www.baidu.com/s?wd=‘+quote(keyword)

print(url)

输出结果：https://www.baidu.com/s?wd=%E7%BE%8E%E5%A5%B3

10unquote()

对URL进行解码

from urllib.parse import unquote

url=‘https://www.baidu.com/s?wd=%E7%BE%8E%E5%A5%B3‘

print(unquote(url))

输出结果：https://www.baidu.com/s?wd=美女
就可以实现解码

以上是关于python3 爬虫4--解析链接的主要内容，如果未能解决你的问题，请参考以下文章

scrapy主动退出爬虫的代码片段(python3)

Python3网络爬虫实战-22使用Urllib：解析链接

python3 网页爬虫图片下载无效链接处理 try except

[Python3网络爬虫开发实战] 1.3.1-lxml的安装

《python3网络爬虫开发实战》--解析库的使用

[Python3网络爬虫开发实战] 1.3.3-pyquery的安装