python抓取网页内容时出现如下错误应该怎么办?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python抓取网页内容时出现如下错误应该怎么办?相关的知识,希望对你有一定的参考价值。
UnicodeEncodeError: 'gbk' codec can't encode character '\ue4bf' in position 1235: illegal multibyte sequence RT怎么破?
在Python自带的交互式模式下编辑,交互式下,一行只能放一段代码import requests , 这一行要和下面你定义的函数隔开为两段代码
也就是import requests 要按回车键,然后在新的【>>>】开始处再输入你定义的函数代码
一些网页可以用Python的urllib来抓取内容,基本上没有问题
但是有的网页内容在浏览器看到的和抓取的有很大区别,抓取的基本上是框架实质内容没有
比如必应词典,http://dict.bing.com.cn/#good
代码如下:
>>> import urllib.request
>>> response = urllib.request.urlopen('h)
>>> html = response.read()
>>> print(html.decode('utf-8'))
Python 2.7.10 (default, Oct 23 2015, 18:05:06)
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import requests
>>> requests.get('https://www.zhihu.com')
<Response [200]>
作者:songjian
链接:https://www.zhihu.com/question/40873205/answer/88620840
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
结果:
Traceback (most recent call last):
File "<pyshell#3>", line 1, in <module>
print(html.decode('utf-8'))
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
以上是关于python抓取网页内容时出现如下错误应该怎么办?的主要内容,如果未能解决你的问题,请参考以下文章