python网页爬虫开发之六-Selenium使用

Posted joxin

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python网页爬虫开发之六-Selenium使用相关的知识,希望对你有一定的参考价值。

chromedriver禁用图片,禁用js,切换UA
selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。
 
   
 
from selenium import webdriver
 
from fake_useragent import UserAgent
 
   
 
ua = UserAgent().random
 
print(ua)
 
chrome_options = webdriver.ChromeOptions()
 
prefs = {
 
‘profile.default_content_setting_values‘: {
 
# 也可以这样写,两种都正确
 
# ‘profile.default_content_settings‘: {
 
‘images‘: 2, # 不加载图片
 
‘javascript‘: 2, # 不加载JS
 
"User-Agent": ua, # 更换UA
 
}
 
}
 
chrome_options.add_experimental_option("prefs", prefs)
 
browser = webdriver.Chrome(executable_path="C:/codeapp/seleniumDriver/chrome/chromedriver.exe", chrome_options=chrome_options)
 
#这个网页可以显示浏览器的信息,这样我们就可以看到我们的UA信息,
 
url = "https://httpbin.org/get?show_env=1"
 
browser.get(url)

以上是关于python网页爬虫开发之六-Selenium使用的主要内容,如果未能解决你的问题,请参考以下文章

[Python爬虫]使用Selenium操作浏览器订购火车票

爬虫如何用python+selenium网页爬虫

Python爬虫学习——使用selenium和phantomjs爬取js动态加载的网页

python爬虫-27-python之Selenium入门,动态网页抓取

Python爬虫-爬取斗鱼网页selenium+bs

Python+Selenium+PhantomJs爬虫 怎么抓取弹出新标签页的内容