爬虫反爬

Posted angle6-liu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫反爬相关的知识,希望对你有一定的参考价值。

反爬技术:

1. UA反爬:携带ua,构建有效ua池;
2. Ip限制:限制同一ip的访问频率,download_delay =8,代理ip;
3. 数据藏在js脚本:一般使用re提取数据;
4. ajax请求(动态数据):可以使用selenium或者pypepeer,但是效率太低,影响机器性能,
推荐直接访问接口获取数据。
5. 验证码:
  1 数字+字母 验证码,opencv图像识别技术,打码平台
      2 滑动验证码:...

6. js逆向:常见加密有md5,rsa(非对称加密),des(对称加密),base64编码,js混淆(sojson.v5);
7. 字体加密:找到字体与编码的映射关系表;
8. 数据编码问题:gbk,gbk2312,unicode,url编码,html特殊字符,以及混合编码问题;

以上是关于爬虫反爬的主要内容,如果未能解决你的问题,请参考以下文章

爬虫与反爬

进击的反爬机制

常见的反爬措施:UA反爬和Cookie反爬

Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家,字体反爬之二

我去,爬虫遇到字体反爬,哭了

python爬虫的一个常见简单js反爬