基于Java的爬虫框架WebCollector

Posted BigJunOBa

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于Java的爬虫框架WebCollector相关的知识,希望对你有一定的参考价值。

  一、WebCollector介绍

  WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。

  WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。

  二、WebCollector使用

  1.下载地址:http://crawlscript.github.io/WebCollector/下载到CrawlScript-WebCollector-169931a.zip,解压后在webcollector-2.73-alpha-bin.zip下可以得到所有需要的jar包。

  

  2.在Eclipse中新建项目并且将jar包导入项目Build Path即可

 

以上是关于基于Java的爬虫框架WebCollector的主要内容,如果未能解决你的问题,请参考以下文章

用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)

开源爬虫框架优缺点盘点

爬虫,有啥框架比httpclient更快

解析3类开源爬虫框架的优缺点

开源爬虫框架各有什么优缺点?

怎么样使用Python的Scrapy爬虫框架