SpiderFlow(图形化爬虫)

Posted Harris-H

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SpiderFlow(图形化爬虫)相关的知识,希望对你有一定的参考价值。

SpiderFlow(图形化爬虫)

url

https://github.com/ssssssss-team/spider-flow

官网

https://www.spiderflow.org

0.简介

spider-flow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫

特性

  • 支持css选择器、正则提取
  • 支持JSON/XML格式
  • 支持Xpath/JsonPath提取
  • 支持多数据源、SQL select/insert/update/delete
  • 支持爬取JS动态渲染的页面
  • 支持代理
  • 支持二进制格式
  • 支持保存/读取文件(csv、xls、jpg等)
  • 常用字符串、日期、文件、加解密、随机等函数
  • 支持流程嵌套
  • 支持插件扩展(自定义执行器,自定义函数、自定义Controller、类型扩展等)
  • 支持HTTP接口

插件

  • redis插件
  • mongodb插件
  • IP代理池插件
  • OSS插件
  • OCR插件
  • Selenium插件

1.安装

git clone https://hub.fastgit.org/ssssssss-team/spider-flow.git

然后用IDEA打开项目,等待解析和下载maven插件。

  • 导入数据库,基础表:spider-flow/db/spiderflow.sql

  • 打开并运行org.spiderflow.SpiderApplication.java

  • 打开浏览器,输入(http://localhost:8088/)

注意修改

里的 数据库 用户名和密码。

另外我的IDEA jdk不支持jdk.nashorn

所以我用openjdk的nashorn才行。


2.运行

浏览器输入localhost:8088

然后根据官方文档设计爬虫任务即可。

3.总结

优点

  • 无需代码
  • 图形化操作
  • 快速上手

缺点

  • 无法执行较复杂的任务
  • 灵活性差

以上是关于SpiderFlow(图形化爬虫)的主要内容,如果未能解决你的问题,请参考以下文章

Python简易 爬虫+图形化界面

Python爬虫——对豆瓣图书各模块评论数与评分图形化分析

python爬虫爬取天气数据并图形化显示

python小爬虫-28行代码实现图形化在线翻译

无码爬虫,真香

无码爬虫,真香