SpiderFlow(图形化爬虫)
Posted Harris-H
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SpiderFlow(图形化爬虫)相关的知识,希望对你有一定的参考价值。
SpiderFlow(图形化爬虫)
url
https://github.com/ssssssss-team/spider-flow
官网
https://www.spiderflow.org
0.简介
spider-flow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫
特性
- 支持css选择器、正则提取
- 支持JSON/XML格式
- 支持Xpath/JsonPath提取
- 支持多数据源、SQL select/insert/update/delete
- 支持爬取JS动态渲染的页面
- 支持代理
- 支持二进制格式
- 支持保存/读取文件(csv、xls、jpg等)
- 常用字符串、日期、文件、加解密、随机等函数
- 支持流程嵌套
- 支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等)
- 支持HTTP接口
插件
- redis插件
- mongodb插件
- IP代理池插件
- OSS插件
- OCR插件
- Selenium插件
1.安装
git clone https://hub.fastgit.org/ssssssss-team/spider-flow.git
然后用IDEA打开项目,等待解析和下载maven插件。
-
导入数据库,基础表:
spider-flow/db/spiderflow.sql
-
打开并运行
org.spiderflow.SpiderApplication.java
-
打开浏览器,
输入(http://localhost:8088/)
注意修改
里的 数据库 用户名和密码。
另外我的IDEA jdk不支持jdk.nashorn
所以我用openjdk的nashorn才行。
2.运行
浏览器输入localhost:8088
然后根据官方文档设计爬虫任务即可。
3.总结
优点
- 无需代码
- 图形化操作
- 快速上手
缺点
- 无法执行较复杂的任务
- 灵活性差
以上是关于SpiderFlow(图形化爬虫)的主要内容,如果未能解决你的问题,请参考以下文章