爬虫遇到的坑🕳

Posted fran-py-

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫遇到的坑🕳相关的知识,希望对你有一定的参考价值。

爬取猫眼电影排行,无法正常显示中文,出现乱码

         发现,在爬取百度[https://www.baidu.com/]时出现乱码,通过编码->解码,

import requests
url=https://www.baidu.com/
html=requests.get(url).text.encode(iso-8859-1).decode(utf-8) 
print(html)

          可以解决乱码问题。但是不能指定headers,否则还是会出现乱码

      • 爬取猫眼电影时必须指定headers,否则会出现403报错。上述方法不能解决爬取时出现乱码的问题。
    • 发现
      • 爬虫时:有时出现乱码,有时正常显示中文。
      • 不使用爬虫,人工复制链接打开网站时时:(与爬虫时的两种情况对应,也出现两种情况)先弹出验证界面之后才显示猫眼电影网站;直接显示猫眼电影排行网站
    •  最终解决方法:出现乱码时,人工复制链接打开网站,此时出现了验证界面,完成验证界面,此时显示出了要爬取的网站。之后,运行.py文件,不再出现乱码。
    • 上述以百度为例的乱码报错问题可能具有某种程度上的普遍性,以猫眼电影排行为例的乱码报错问题应该是个例问题。

正则表达式正确,但却不能正常匹配

 

以上是关于爬虫遇到的坑🕳的主要内容,如果未能解决你的问题,请参考以下文章

爬虫第一步遇到的坑

那些年用xpath玩爬虫时遇到的坑

如何用ffmpeg截取视频片段&截取时间不准确的坑

Python爬虫安装 pyQuery 遇到的坑 Could not find function xmlCheckVersion in library libxml2. Is libxml2 ins(代

django 多线程 + uWSGI 多线程 遇到的坑

Python scrapy 常见问题及解决 遇到的坑