解决selenium驱动被识别反爬,让爬虫顺利跑起来
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了解决selenium驱动被识别反爬,让爬虫顺利跑起来相关的知识,希望对你有一定的参考价值。
参考技术A 查阅了很多资料,都是说Chromedriver 源码中某个变量名是表示该驱动特征的,只需要改变这个变量名,或者拦截包含该变量名的请求就行了,拦截需要中间件。太繁琐,还是改源码简单点,于是找到了,别人改好,编译好的Chromedriver,特征已经被抹除
目前只有windows10版本和linux16.04版本
gitee地址:
https://gitee.com/bobozhangyx/java-crawler/tree/master/file/%E7%BC%96%E8%AF%91%E5%90%8E%E7%9A%84chromedriver
利用selenium进行爬虫时,防止js检测驱动的方法
浏览器前端通常会做一下反爬虫的手段,如下
webdriver = window.navigator.webdriver; if(webdriver){ console.log(‘你这个傻逼你以为使用Selenium模拟浏览器就可以了?‘) } else { console.log(‘正常浏览器‘) }
如何利用爬虫针对js代码的反爬手段进行规避,以谷歌浏览器为例,进行设置,代码如下
from selenium import webdriver
option = webdriver.ChromeOptions() option.add_experimental_option(‘excludeSwitches‘, [‘enable-automation‘]) driver = webdriver.Chrome(options=option)
以上是关于解决selenium驱动被识别反爬,让爬虫顺利跑起来的主要内容,如果未能解决你的问题,请参考以下文章