无敌爬虫之无头浏览器

Posted trysocket

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了无敌爬虫之无头浏览器相关的知识,希望对你有一定的参考价值。

 

 

 

 

驱动下载

https://sites.google.com/a/chromium.org/chromedriver/downloads

 

 

import bs4

import requests
from selenium import webdriver
import time


# 启动Chrome无头浏览器
options = webdriver.ChromeOptions()
options.add_argument(\'--headless\')
options.add_argument(\'--disable-gpu\')
# 指定驱动
driver = webdriver.Chrome(executable_path=r\'C:\\Program Files\\Google\\Chrome\\Application\\chromedriver.exe\',options=options)

# 获得页面
driver.get("https://12345678912345789")

# 打印数据内容
time.sleep(10)
re_date = driver.page_source
# 打出页面渲染后的代码
print(re_date)
soup = bs4.BeautifulSoup(re_date, "html.parser")
# 打印出网站标题
print(driver.title)
# 查出所有p标签中的内容
for p in soup.find_all(\'p\'):
    with open(\'123456789.txt\',\'a+\', encoding=\'utf-8\') as f:
        f.write(p.text)
        print("正在写入------------------->", p.text)

driver.quit()

 

以上是关于无敌爬虫之无头浏览器的主要内容,如果未能解决你的问题,请参考以下文章

爬虫04 /asyncioselenium规避检测动作链无头浏览器

运用 phantomjs 无头浏览器破解四种反爬虫技术

爬虫使用无头浏览器

反爬虫中chrome无头浏览器的几种检测与绕过方式

Python之Selenium自动化爬虫

PuppeteerSharp+AngleSharp的爬虫实战之汽车之家数据抓取