开源项目-网上公开http代理爬取简单分类

Posted oomblog

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了开源项目-网上公开http代理爬取简单分类相关的知识,希望对你有一定的参考价值。

  爬取网上公开免费代理(http/socks),解析入库,可满足需要切换IP的场景(爬虫、投票等)需求。

  项目地址: https://github.com/Jwnie/proxyservice

  1、采用SpringBoot快速开发,mysql存储,httpclient 4.x 、selenium+chrome和Jsoup下载解析,并对已爬取的代理定时进行联通有效校验;

  2、目前支持两个代理查询接口,看需要可进行扩展:

  (1)http://localhost:8888/proxy/getProxy?isDemostic=true&anonymousType=elite&protocolType=https
    默认返回前一百条可用代理;
    参数说明: 
    (1) isDemostic: 可选参数,是否为国内代理,值为true和false;
    (2) anonymousType: 可选参数,代理的匿名类型,分为四种:transparent(透明)、anonymous(匿名)、distorting(混淆)、elite(高匿);
    (3) protocolType: 可选参数,代理的协议类型,分为http、https、socks4、socks5和socks(未做socks4和socks5的细分,统称为socks)

  返回数据:

  技术分享图片

  (2)http://localhost:8888/proxy/proxyStatistic

    查询代理数量,按代理站点统计:

  技术分享图片

  






以上是关于开源项目-网上公开http代理爬取简单分类的主要内容,如果未能解决你的问题,请参考以下文章

Android开源项目分类汇总

23个Python爬虫开源项目代码:爬取微信淘宝豆瓣知乎微博等

Python爬虫开源项目代码,爬取微信淘宝豆瓣知乎新浪微博QQ去哪网等 代码整理

通过PythonBeautifulSoup爬取Gitee热门开源项目

当你有密钥时让 Git 项目开源

GitHub上史上最全的Android开源项目分类汇总