解决selenium驱动被识别反爬,让爬虫顺利跑起来

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了解决selenium驱动被识别反爬,让爬虫顺利跑起来相关的知识,希望对你有一定的参考价值。

参考技术A 查阅了很多资料,都是说Chromedriver 源码中某个变量名是表示该驱动特征的,只需要改变这个变量名,或者拦截包含该变量名的请求就行了,拦截需要中间件。太繁琐,还是改源码简单点,
于是找到了,别人改好,编译好的Chromedriver,特征已经被抹除
目前只有windows10版本和linux16.04版本
gitee地址:
https://gitee.com/bobozhangyx/java-crawler/tree/master/file/%E7%BC%96%E8%AF%91%E5%90%8E%E7%9A%84chromedriver

利用selenium进行爬虫时,防止js检测驱动的方法

浏览器前端通常会做一下反爬虫的手段,如下

webdriver = window.navigator.webdriver;
if(webdriver){    
console.log(‘你这个傻逼你以为使用Selenium模拟浏览器就可以了?‘)
} else {    
console.log(‘正常浏览器‘)
}

如何利用爬虫针对js代码的反爬手段进行规避,以谷歌浏览器为例,进行设置,代码如下

from selenium import webdriver
option = webdriver.ChromeOptions() option.add_experimental_option(excludeSwitches, [enable-automation]) driver = webdriver.Chrome(options=option)

以上是关于解决selenium驱动被识别反爬,让爬虫顺利跑起来的主要内容,如果未能解决你的问题,请参考以下文章

k 近邻算法解决字体反爬手段|效果非常好

利用selenium进行爬虫时,防止js检测驱动的方法

爬虫进阶常见的反爬手段和解决方法(建议收藏)

WebDriver 识别反爬虫的原理和破解方法~

selenium+python爬虫全流程教程

爬虫过程和反爬