java网络爬虫
Posted counter-biao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java网络爬虫相关的知识,希望对你有一定的参考价值。
#环境准备
##第三方工具包httpclient:抓取网页数据
*get请求
*带参数get请求
*post请求
*带参数post请求
*连接池
*请求参数:时间
#Jsoup
*对页面进行解析
*字符串处理工具
*正则表达式
*环境搭建
*导入坐标jsoup,以及其他工具
*解析url
*解析字符串
*解析文件
*获取属性值
*Selector选择器
#WebMagic
*爬虫框架:基于jsoup和httpclient开发
*核心容器spider:四大组件
*下载
*解析
*去重
*数据处理
*数据流转对象:三大
*Pages:核心
*Request:url封装
*ResultItems:Map
#爬虫的分类
*全网
*聚焦
*增量:只查最新的
*隐藏的网页
#EliasticSearch
*使用WebMagic,爬虫网络,将数据存入mysql
*用EliasticSearch将mysql数据建立索引库,Luece中文分词
*将分析处理后的数据展示到前端
以上是关于java网络爬虫的主要内容,如果未能解决你的问题,请参考以下文章
个人怎么利用爬虫技术赚钱-Java网络爬虫系统性学习与实战系列