python之chardet验证编码格式

Posted 朱兆筠

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python之chardet验证编码格式相关的知识,希望对你有一定的参考价值。

在处理字符串时,常常会遇到不知道字符串是何种编码,如果不知道字符串的编码就不能将字符串转换成需要的编码

pip install chardet

举例子

import chardet
import urllib.request     ---->安装urllib3

# 可根据需要,选择不同的数据
TestData = urllib.request.urlopen(http://www.baidu.com/).read(300)
print(chardet.detect(TestData))

# 运行结果:{‘encoding‘: ‘ascii‘, ‘confidence‘: 1.0, ‘language‘: ‘‘}

注:

rllib2是python自带的模块,不需要下载。

urllib 侧重于 url 基本的请求构造,urllib2侧重于 http 协议请求的处理,而 urllib3是服务于升级的http 1.1标准,且拥有高效 http连接池管理及 http 代理服务的功能库

以上是关于python之chardet验证编码格式的主要内容,如果未能解决你的问题,请参考以下文章

python之chardet库

Python爬虫教程-使用chardet

python3.6使用chardet模块总是报错ValueError: Expected a bytes object, not a unicode object

编码格式检测chardet模块

使用chardet模块获取文件的编码格式,进而正确的读取文件内容

利用chardet检测网页编码