Python-urllib库parse模块解析链接常用方法

Posted huishanyu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python-urllib库parse模块解析链接常用方法相关的知识,希望对你有一定的参考价值。

版权声明:本文为博主学习记录,转载请注明出处()

urlparse()

# urllib.parse.urlparse(urlstring,scheme=‘‘,allow_fragments=True)  
# urlstring : 这个是必填项,即待解析的URL  
result = urlparse(http://www.baidu.com/index.html;user?id=5#comment)  
print(type(result),result)  
  
# scheme : 它是默认的协议,只有在URL中不包含scheme信息时生效  
result = urlparse(www.baidu.com/index.html;user?id=5#comment,scheme=https)  
print(result)  
  
# allow_fragments : 即是否忽略fragment 设置成False就会忽略,它会被解析为path,parameters或者query的一部分,而fragment部分为空  
result = urlparse(http://www.baidu.com/index.html;user?id=5#comment,allow_fragments=False)  
print(result)  
  
# 返回的结果其实是一个元组,我们可以通过索引来获取,也可以用属性名来获取  
# ParseResult的属性 scheme(:// 协议),netloc(/ 域名),path(访问路径),params(; 参数),query(查询条件),fragment(# 锚点)  
result = urlparse(http://www.baidu.com/index.html;user?id=5#comment,allow_fragments=False)  
print(result.scheme,result[0],result.netloc,result[1],sep=
) 

 

urlunparse()

# urlunparse() 长度必须为6个参数,否则会抛出参数数量不足或者过多的问题  
data = [http,www.baidu.com,index.html,user,a=6,comment]  
print(urlunparse(data)) 

urlsplit()

# urlsplit() 和urlparse()方法很相似,不再解析params 参数  
result = urlsplit(http://www.baidu.com/index.html;user?id=5#comment)  
print(result)  
# 返回的结果其实也是一个元组,我们可以通过索引来获取,也可以用属性名来获取  
# SplitResult的属性 scheme(:// 协议),netloc(/ 域名),path(访问路径),query(查询条件),fragment(# 锚点)  
result = urlparse(http://www.baidu.com/index.html;user?id=5#comment,allow_fragments=False)  
print(result.scheme,result[0])  

urlunsplit()

# urlunsplit() 和urlunparse()方法很相似,只不过长度变成5个参数  
data = [http,www.baidu.com,index.html,a=6,comment]  
print(urlunsplit(data)) 

urljoin()

# urljoin() 也是合并链接的一种方式,相比之前俩种方法,没有之前特定的指定参数对象的长度  
# urljoin()方法提供俩个参数,base_url(基础链接)作为第一个参数,讲新的链接作为第二个参数,该方法会分析base_url的scheme,netloc和path  
# 这三个内容并对新链接确实的部分进行补充,最后返回结果  
print(urljoin(http://www.baidu.com,https://cuiqingcai.com/FAQ.html))  
print(urljoin(http://www.baidu.com/about.html,https://cuiqingcai.com/FAQ.html))  
print(urljoin(http://www.baidu.com,FAQ.html))  
print(urljoin(http://www.baidu.com/about.html,https://cuiqingcai.com/FAQ.html?question=2))  
print(urljoin(http://www.baidu.com?wd=abc,https://cuiqingcai.com/index.php))  
print(urljoin(http://www.baidu.com,?category=2#comment))  
 print(urljoin(www.baidu.com,?category=2#comment))  
 print(urljoin(www.baidu.com#comment,?category=2))  

urlencode()

# urlencode() 序列化字典类型转换为请求类型  
params = {  
    name : germey,  
    age : 22  
}  
base_url = http://www.baidu.com?  
url = base_url + urlencode(params)  
print(url)  

parse_qs()

# parse_qs() 反序列化将请求参数转回字典参数  
from urllib.parse import parse_qs  
  
query = name=germey&age=22  
params = parse_qs(query)  
print(params)  

parse_qs1()

# parse_qs1() 它用于把参数转化为元组组成的列表  
from urllib.parse import parse_qsl  
  
query = name=germey&age=22  
params = parse_qsl(query)  
print(params) 

quote()

# quote() 该方法可以将内容转化为URL编码的格式,URL中带有中文参数时,又是可能会导致乱码的问题,用这个方法可以将中文字符转化为URL编码  
from urllib.parse import quote  
  
keyword = 壁纸  
url = http://www.baidu.coms?wd=+quote(keyword)  
print(url)  

unquote()

# unquote() 它对应上面的方法, 可以进行URL解码  
from urllib.parse import unquote  
  
url = http://www.baidu.coms?wd=%E5%A3%81%E7%BA%B8  
print(unquote(url))

 

以上是关于Python-urllib库parse模块解析链接常用方法的主要内容,如果未能解决你的问题,请参考以下文章

python-urllib&urllib2模块

Python 的 urllib.parse 库解析 URL

Urllib库基本使用

无法使用解析库:解析链接器警告:文件是为不受支持的文件格式构建的

爬虫:Urllib库详解

python urllib库详解