爬虫遇到的坑🕳
Posted fran-py-
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫遇到的坑🕳相关的知识,希望对你有一定的参考价值。
爬取猫眼电影排行,无法正常显示中文,出现乱码
- response.text响应总是乱码
发现,在爬取百度[https://www.baidu.com/]时出现乱码,通过编码->解码,
import requests url=‘https://www.baidu.com/‘ html=requests.get(url).text.encode(‘iso-8859-1‘).decode(‘utf-8‘) print(html)
可以解决乱码问题。但是:不能指定headers,否则还是会出现乱码
-
-
- 爬取猫眼电影时必须指定headers,否则会出现403报错。上述方法不能解决爬取时出现乱码的问题。
- 发现:
- 爬虫时:有时出现乱码,有时正常显示中文。
- 不使用爬虫,人工复制链接打开网站时时:(与爬虫时的两种情况对应,也出现两种情况)先弹出验证界面之后才显示猫眼电影网站;直接显示猫眼电影排行网站
- 最终解决方法:出现乱码时,人工复制链接打开网站,此时出现了验证界面,完成验证界面,此时显示出了要爬取的网站。之后,运行.py文件,不再出现乱码。
- 上述以百度为例的乱码报错问题可能具有某种程度上的普遍性,以猫眼电影排行为例的乱码报错问题应该是个例问题。
-
正则表达式正确,但却不能正常匹配
以上是关于爬虫遇到的坑🕳的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫安装 pyQuery 遇到的坑 Could not find function xmlCheckVersion in library libxml2. Is libxml2 ins(代