selenium-java爬虫实现

Posted 释然的蛋

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了selenium-java爬虫实现相关的知识,希望对你有一定的参考价值。

推荐的网站学习网站

  1.官方文档  http://www.seleniumhq.org/docs/

  2.selenium多线程  http://www.cnblogs.com/dingmy/p/3438084.html

Selenium Standalone Server

搭建RC环境

  1.下载Selenium Standalone Server(http://www.seleniumhq.org/download/

  2.下载Chrome Drivers,与selenium-server-standalone.jar包放在同目录(http://www.seleniumhq.org/download/

启动hub

  1.打开终端,切换到selenium-server-standalone所在的目录

  2.执行java -jar selenium-server-standalone-3.2.0.jar -role hub -maxSession 40 -port 4444

    3.启动成功时,提示信息信息如图

                                       

     参数说明:

        maxSession最大会话数

        port 监听端口,默认4444,如果监听端口被其他程序占用,程序无法启动成功(可自定义)

启动node

     打开终端,切花对应目录

         1.执行java -Dwebdriver.chrome.driver=D:\\chromeDriver\\chrodriver.exe -jar selenium-server-standalone-3.2.0.jar -role node -hub http://(自己的ip):4444/grid/register -maxSession 20 -browser "browser=chrome,maxInstances=20" -port 5555

     参数说明:

        -Dwebdriver.chrome.driver chrome驱动

        -hub hub服务器地址

        -browser 设置浏览器参数,最大进程数

        -maxSession 最大会话数,注意分支node上的最大会话数不能超过hub服务器上定义的最大会话数

        -port 监听端口,默认5555

调用RC

     DesiredCapabilities capabilities = DesiredCapabilities.chrome();

     WebDriver driver = new RemoteWebdriver(new URL(new URL("http://192.168.199.146:4444/wd/hub")),capabilities);

要在代码中始终selenium工具,需要在maven配置中添加依赖

<dependency>

     <groupId>org.seleniumhq.selenium</groupId>

     <artifactId>selenium-java</artifactId>

     <version>3.2.0</version>

</dependency>

注意:最后选用最好都使用最新版本,因为要和浏览器兼容(曾经踩过的坑)。      

以上是关于selenium-java爬虫实现的主要内容,如果未能解决你的问题,请参考以下文章

Java网络爬虫怎么实现?

java实现网页爬虫

C#爬虫爬虫的多线程如何实现

python爬虫相关基础概念

Java实现网络爬虫

Java实现网络爬虫-Java入门|Java基础课程