python 3.2 urllib.request请求百度首页，得到的结果用各种编码都是乱码，为啥？

Posted 2023-04-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python 3.2 urllib.request请求百度首页，得到的结果用各种编码都是乱码，为啥？相关的知识，希望对你有一定的参考价值。

import urllib.request
import socket
socket.setdefaulttimeout(60)
charcode="utf-8"#编码格式，能想到的几种都试过了
url="http://www.baidu.com"
req = urllib.request.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (Khtml, like Gecko) Chrome/21.0.1180.83 Safari/537.1")
req.add_header("Accept","text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
req.add_header("Accept-Charset",charcode)
result=urllib.request.urlopen(req)
data=result.read()
print(data.decode(charcode))#能想到的几种编码都试过了，都是乱码，有些还报错
result.close()

错误信息：
Traceback (most recent call last):
File "D:\right.zhang\Work\Source\Python\functiontest.py", line 14, in <module>
print(data.decode(charcode))
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 101: invalid start byte

这是这么回事，获取到的数据不完整吗？

参考技术A data不是utf8编码的，至少第一个字节不是合法的utf8编码；追问

我想知道的这是为什么，以及如何解决，多谢！

追答

print(data.decode(charcode, 'ignore'))

这样吧
刚看了下，貌似不是什么重要的内容不能ignore

本回答被提问者和网友采纳参考技术B 用python2.7 吧，应为好多第三方的模块好多不支持python3.
html=html.decode('utf-8','ignore').encode('utf-8')

html =html_1.decode('gb2312','ignore').encode('utf-8')

python2.7上是这么办的。