python网页爬虫开发之六-Selenium使用
Posted joxin
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python网页爬虫开发之六-Selenium使用相关的知识,希望对你有一定的参考价值。
chromedriver禁用图片,禁用js,切换UA
selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。
from selenium import webdriver
from fake_useragent import UserAgent
ua = UserAgent().random
print(ua)
chrome_options = webdriver.ChromeOptions()
prefs = {
‘profile.default_content_setting_values‘: {
# 也可以这样写,两种都正确
# ‘profile.default_content_settings‘: {
‘images‘: 2, # 不加载图片
‘javascript‘: 2, # 不加载JS
"User-Agent": ua, # 更换UA
}
}
chrome_options.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(executable_path="C:/codeapp/seleniumDriver/chrome/chromedriver.exe", chrome_options=chrome_options)
#这个网页可以显示浏览器的信息,这样我们就可以看到我们的UA信息,
url = "https://httpbin.org/get?show_env=1"
browser.get(url)
以上是关于python网页爬虫开发之六-Selenium使用的主要内容,如果未能解决你的问题,请参考以下文章
[Python爬虫]使用Selenium操作浏览器订购火车票
Python爬虫学习——使用selenium和phantomjs爬取js动态加载的网页