Python+Selenium+PhantomJs爬虫 怎么抓取弹出新标签页的内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python+Selenium+PhantomJs爬虫 怎么抓取弹出新标签页的内容相关的知识,希望对你有一定的参考价值。

参考技术A 在工程中新建一个Python Package(包),右键点击src, New>PydevPackage,选择源文件路径及输入包名: 在_init_.py,输入print (“Hello World”),按F9即可看到输出结果,说明开发环境安装成功!本回答被提问者采纳

使用 Python/PhantomJS/Selenium 滚动无限页面

【中文标题】使用 Python/PhantomJS/Selenium 滚动无限页面【英文标题】:Scrolling infinite page with Python/PhantomJS/Selenium 【发布时间】:2018-05-29 15:50:41 【问题描述】:

我正在尝试抓取这个(无限)页面(www.mydealz.de),但我无法让我的网络驱动程序向下滚动页面。 我使用 Python (3.5)、Selenium (3.6) 和 PhantomJS。 我已经尝试了几种方法,但 webdriver 只是不会滚动 - 它只是给了我第一页。

第一种方法(通常的滚动方法):

last_height = driver.execute_script("return document.body.scrollHeight")
while True:
  driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
  time.sleep(1)
  new_height = driver.execute_script("return document.body.scrollHeight")
  if new_height == last_height:
       break
  last_height = new_height

第二种方法(只需按几次向下键并释放它,也尝试在两次按下之间等待):

ActionChains(driver).key_down(Keys.ARROW_DOWN).perform()
ActionChains(driver).key_up(Keys.ARROW_DOWN).perform()

第三种方法(找到“滚动列表”中的最后一个元素并滚动到其视图以强制滚动):

posts = driver.find_elements_by_css_selector("div.threadGrid")
driver.execute_script("arguments[0].scrollIntoView();", posts[-1])

到目前为止没有任何效果,有人知道是否有其他方法或我在哪里出错了吗?

【问题讨论】:

你有关于页面有多少总数据的信息吗? 你想要多少卷轴?或者你想收集多少元素?你想什么时候停止滚动?而是要在哪里停止滚动? @DebanjanB 基本上我想滚动直到网址为mydealz.de/?page=3 【参考方案1】:

要滚动网页直到the url is mydealz.de/?page=3,您可以使用以下代码块:

from selenium import webdriver

driver = webdriver.PhantomJS(executable_path=r'C:\\Utility\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe')
driver.set_window_size(1400,1000)
driver.get("https://www.mydealz.de")
while ("3" not in driver.current_url) :
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
print(driver.current_url)
driver.quit()

控制台输出:

https://www.mydealz.de/?page=3

【讨论】:

谢谢,它就像一个魅力!不过我有一个问题:我也使用了行 driver.execute_script() 。但它没有用。这里成功的关键是设置窗口大小吗?【参考方案2】:

我可以在提到的网站上看到 1853 个页面。所以你可以迭代一个循环,直到你到达最后一页。睡眠时间必须高于平均水平才能加载每个页面,尝试最小为 3,值越大,不加载数据的可能性越小。

number_of_scroll = 1857

while number_of_scroll > 0:
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(3)
    number_of_scroll = number_of_scroll-1

【讨论】:

【参考方案3】:

比使用 Selenium/PhantomJS 更简单的方法是模仿浏览器的功能。如果您在 Chrome 的开发者工具中打开“网络”选项卡,您会看到浏览器向https://www.mydealz.de/?page=2&ajax=true 发出请求以实现无限滚动。当我将请求复制为 curl 时,将其限制在它引导我的最小值

curl 'https://www.mydealz.de/?page=2&ajax=true' -H 'x-requested-with: XMLHttpRequest'

把它变成一个python脚本:

import json, requests

url = 'http://www.mydealz.de/'
headers = 'x-requested-with': 'XMLHttpRequest'

for page in range(10):
    params = dict(page=page, ajax='true')
    resp = requests.get(url=url, params=params, headers=headers)
    data = json.loads(resp.text)
    html = data['data']['content']
    # do something with html, maybe parse it with beautifulsoup

除了更简单的代码之外,它也会更快。

【讨论】:

以上是关于Python+Selenium+PhantomJs爬虫 怎么抓取弹出新标签页的内容的主要内容,如果未能解决你的问题,请参考以下文章

如何用python+selenium+phantomjs获得一个网页的动态生成的html代码

使用 Selenium 的 Python PhantomJS

动态网站爬虫Python-selenium-PhantomJS

python selenium结合PhantomJS对ajax异步页面进行压测或者爬虫

python+selenium+phantomjs爬百度美女图片

Selenium2+python自动化69-PhantomJS使用转载