爬虫遇到的坑🕳

Posted 2021-03-13 fran-py-

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫遇到的坑🕳相关的知识，希望对你有一定的参考价值。

爬取猫眼电影排行，无法正常显示中文，出现乱码

response.text响应总是乱码　
- 找了许多种方法，python爬虫解决gbk乱码问题、python爬虫的中文乱码问题？ - 知乎

　　　　　发现，在爬取百度[https://www.baidu.com/]时出现乱码，通过编码->解码，

import requests
url=‘https://www.baidu.com/‘
html=requests.get(url).text.encode(‘iso-8859-1‘).decode(‘utf-8‘) 
print(html)

　　　　　可以解决乱码问题。但是：不能指定headers，否则还是会出现乱码

- - 爬取猫眼电影时必须指定headers，否则会出现403报错。上述方法不能解决爬取时出现乱码的问题。
- 发现：
  - 爬虫时：有时出现乱码，有时正常显示中文。
  - 不使用爬虫，人工复制链接打开网站时时：（与爬虫时的两种情况对应，也出现两种情况）先弹出验证界面之后才显示猫眼电影网站；直接显示猫眼电影排行网站
- 最终解决方法：出现乱码时，人工复制链接打开网站，此时出现了验证界面，完成验证界面，此时显示出了要爬取的网站。之后，运行.py文件，不再出现乱码。
- 上述以百度为例的乱码报错问题可能具有某种程度上的普遍性，以猫眼电影排行为例的乱码报错问题应该是个例问题。

正则表达式正确，但却不能正常匹配

以上是关于爬虫遇到的坑🕳的主要内容，如果未能解决你的问题，请参考以下文章