Selenium用法详解设置元素等待JAVA爬虫
Posted 洛阳泰山
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Selenium用法详解设置元素等待JAVA爬虫相关的知识,希望对你有一定的参考价值。
简介
本文主要介绍如何使用java代码利用Selenium操作浏览器,某些网页元素加载慢,如何操作元素就会把找不到元素的异常,此时需要设置元素等待,等待元素加载完,再操作。
设置元素等待
很多页面都使用 ajax 技术,页面的元素不是同时被加载出来的,为了防止定位这些尚在加载的元素报错,可以设置元素等来增加脚本的稳定性。webdriver 中的等待分为 显式等待 和 隐式等待。
显式等待
显式等待:设置一个超时时间,每个一段时间就去检测一次该元素是否存在,如果存在则执行后续内容,如果超过最大时间(超时时间)则抛出超时异常(TimeoutException)。显示等待需要使用 WebDriverWait,同时配合 until 或 not until 。下面详细讲解一下。
import org.openqa.selenium.By;
import org.openqa.selenium.NoSuchElementException;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.support.ui.ExpectedConditions;
import org.openqa.selenium.support.ui.WebDriverWait;
/**
* @author Lenovo
*/
public class SeleniumDemo
private final static String webDriver = "webdriver.chrome.driver";
private final static String webDriverPath ="E:\\\\chromedriver\\\\chromedriver.exe";
public static void main(String[] args) throws InterruptedException
System.setProperty(webDriver, webDriverPath);
WebDriver driver= new ChromeDriver();
//博客主页
driver.get("https://blog.csdn.net/weixin_40986713");
WebElement element=driver.findElement(By.className("submit"));
long start=System.currentTimeMillis();
//等待5秒
WebDriverWait shortWait = new WebDriverWait(driver, 5);
//5秒内元素加载出来就执行点击
shortWait.until(ExpectedConditions.elementToBeClickable(element)).click();
//忽略找不到元素异常
shortWait.ignoring(NoSuchElementException.class);
System.out.println("耗时 "+(System.currentTimeMillis()-start)+" ms");
until 指定预期条件的判断方法,在等待期间,每隔一段时间调用该方法,判断元素是否存在,直到元素出现。
ignoring 指定忽略的异常,如果设定的执行等待超时的时间段内,忽略指定的异常,让程序继续进行。
隐式等待
隐式等待也是指定一个超时时间,如果超出这个时间指定元素还没有被加载出来,就会抛出 NoSuchElementException 异常。
除了抛出的异常不同外,还有一点,隐式等待是全局性的,即运行过程中,如果元素可以定位到,它不会影响代码运行,但如果定位不到,则它会以轮询的方式不断地访问元素直到元素被找到,若超过指定时间,则抛出异常。
使用 driver.manage().timeouts().implicitlyWait() 来实现隐式等待,使用难度相对于显式等待要简单很多。
示例:打开个人主页,设置一个隐式等待时间 5s,通过 id 定位一个不存在的元素,最后打印 抛出的异常 与 运行时间。
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import java.util.concurrent.TimeUnit;
/**
* @author Lenovo
*/
public class SeleniumDemo
private final static String webDriver = "webdriver.chrome.driver";
private final static String webDriverPath ="E:\\\\chromedriver\\\\chromedriver.exe";
public static void main(String[] args) throws InterruptedException
System.setProperty(webDriver, webDriverPath);
WebDriver driver= new ChromeDriver();
//博客主页
driver.get("https://blog.csdn.net/weixin_40986713");
//设置全局隐式等待
driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);
long start=System.currentTimeMillis();
try
driver.findElement(By.className("tarzan"));
catch (Exception e)
System.out.println(e);
System.out.println("耗时 "+(System.currentTimeMillis()-start)+" ms");
代码运行到 driver.findElement(By.className("tarzan"));这句之后触发隐式等待,在轮询检查 5s 后仍然没有定位到元素,抛出异常。
强制等待
用java代码强制当前正在执行的线程休眠(暂停执行)
使用 time.sleep() 强制等待,设置固定的休眠时间,对于代码的运行效率会有影响。
以上面的例子作为参照,将 隐式等待 改为 强制等待。
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
/**
* @author Lenovo
*/
public class SeleniumDemo
private final static String webDriver = "webdriver.chrome.driver";
private final static String webDriverPath ="E:\\\\chromedriver\\\\chromedriver.exe";
public static void main(String[] args) throws InterruptedException
System.setProperty(webDriver, webDriverPath);
WebDriver driver= new ChromeDriver();
//博客主页
driver.get("https://blog.csdn.net/weixin_40986713");
long start=System.currentTimeMillis();
//等待5s
Thread.sleep(5000);
try
driver.findElement(By.className("tarzan"));
catch (Exception e)
System.out.println(e);
System.out.println("耗时 "+(System.currentTimeMillis()-start)+" ms");
值得一提的是,对于定位不到元素的时候,从耗时方面隐式等待和强制等待没什么区别。但如果元素经过 2s 后被加载出来,这时隐式等待就会继续执行下面的代码,但 sleep还要继续等待 3s。
总结
推荐使用的隐式等待,也就是implicitlyWait。
理由:
使用implicitlyWait或者明确等待(explicitly wait),方法参数是等待的最大时长。
也就是只要一找到元素,就会立刻执行下一行代码,不会强制等待参数里设置的时间。
而第三种(线程休眠)则不同,会强制等待设置的时间。设想一下,如果你的工程有好几百个case,
需要等待的元素都采用第三种,会大大加长所有case执行的时间,而你又急着要report,岂不是很惨。
使用implicitlyWait,webdriver会自动应用到case中的所有element中。在启动浏览器(driver.get)之后设置上,这样就不用针对某个元素去设置了,简直太方便了,不过有些特殊的元素,确实等待时间较长的,可以再采用explicit wait。
如果implicitlyWait和explicitly wait都在用在代码里,那么最大等待时间不是两个时间的叠加,而是取最大值。
以上是关于Selenium用法详解设置元素等待JAVA爬虫的主要内容,如果未能解决你的问题,请参考以下文章