三 . 爬虫 url编码

Posted lovershowtime

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了三 . 爬虫 url编码相关的知识,希望对你有一定的参考价值。

一 . url编码

1.url编码本质

其实url本质就是将中文字符串进行utf8编码,然后得到编码后的对象转换字符串去掉开头的b以及末尾的,
然后再将x转换成%,再将里面内容x变成e最后将字符串小写变成

2.url编码流程

#第一步进行编码
a= 宝马
a= a.encode(utf8)
print(a)   # b‘xe5xaex9dxe9xa9xac‘



#第二步进行转字符串去除头尾
a = str(a).strip("b‘") #strip里面的值不是匹配而是有无
print(a) # xe5xaex9dxe9xa9xac


#第三步将转换成%
a = a.replace(\,%)
print(a) # %xe5%xae%x9d%xe9%xa9%xac


#第四部将x写变成e
a = a.replace(x,e)
print(a) # %ee5%eae%e9d%ee9%ea9%eac


#第五步将小写变成大写
a = a.upper()
print(a) # %EE5%EAE%E9D%EE9%EA9%EAC



#一步到位
a=str(a.encode(utf8)).strip("b‘").replace(\x,%).replace(x,e).upper()
print(a)  %EE5%EAE%E9D%EE9%EA9%EAC
#结果%E6%88%91

#不行你可以访问 https://www.baidu.com/s?wd=%EE5%EAE%E9D%EE9%EA9%EAC  <======>        https://www.baidu.com/s?wd=宝马
#看看是不是一样)

 

 3. python中调用库进行url编码和解码

from urllib import parse
# 编码
str1 = 宝马1
str2 = parse.quote(str1)
print(str2) # %E5%AE%9D%E9%A9%AC


# 解码
str1 = %E5%AE%9D%E9%A9%AC
str2 = parse.unquote(str1)
print(str2) # 宝马1

 

以上是关于三 . 爬虫 url编码的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫把url链接编码成gbk2312格式过程解析

总结整理 -- 爬虫技术(C#版)

Python进阶篇四Python爬虫的URL编码/解码

使用python进行URL编码,爬虫时解决参数乱码的问题

python爬虫 url链接编码成gbk2312格式

python爬虫 url链接编码成gbk2312格式