java网络爬虫

Posted counter-biao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java网络爬虫相关的知识,希望对你有一定的参考价值。

#环境准备

  ##第三方工具包httpclient:抓取网页数据  

    *get请求

    *带参数get请求

    *post请求

    *带参数post请求

    *连接池

    *请求参数:时间

#Jsoup

  *对页面进行解析

    *字符串处理工具

    *正则表达式

  *环境搭建

    *导入坐标jsoup,以及其他工具

  *解析url

  *解析字符串

  *解析文件

  *获取属性值

  *Selector选择器

#WebMagic

  *爬虫框架:基于jsoup和httpclient开发

  *核心容器spider:四大组件

    *下载

    *解析

    *去重

    *数据处理

  *数据流转对象:三大

    *Pages:核心

    *Request:url封装

    *ResultItems:Map

#爬虫的分类

  *全网

  *聚焦

  *增量:只查最新的

  *隐藏的网页

#EliasticSearch

  *使用WebMagic,爬虫网络,将数据存入mysql

  *用EliasticSearch将mysql数据建立索引库,Luece中文分词

  *将分析处理后的数据展示到前端

 

以上是关于java网络爬虫的主要内容,如果未能解决你的问题,请参考以下文章

什么是爬虫-Java网络爬虫系统性学习与实战

java爬虫---爬虫+基于接口的网络爬虫

Java实现网络爬虫-Java入门|Java基础课程

个人怎么利用爬虫技术赚钱-Java网络爬虫系统性学习与实战系列

个人怎么利用爬虫技术赚钱-Java网络爬虫系统性学习与实战系列

java网络爬虫基础学习