WebMagic 爬虫框架 注解用法
Posted 悦码
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了WebMagic 爬虫框架 注解用法相关的知识,希望对你有一定的参考价值。
自从java注解出来之后,就无框架不注解。同样的 WebMagic 爬虫框架也支持注解的方式实现网页的抓取,今天为大家分享一下 WebMagic 爬虫的注解教程。
@ TargetUrl和@HelpUrl
HelpUrl/TargetUrl是一个非常有效的爬虫开发模式,TargetUrl是我们最终要抓取的URL,最终想要的数据都来自这里;而HelpUrl则是为了发现这个最终URL,我们需要访问的页面。几乎所有垂直爬虫的需求,都可以归结为对这两类URL的处理:
对于博客页,HelpUrl是列表页,TargetUrl是文章页。
对于论坛,HelpUrl是帖子列表,TargetUrl是帖子详情。
对于电商网站,HelpUrl是分类列表,TargetUrl是商品详情。
下面的例子中,TargetUrl是最终的项目页,而HelpUrl则是项目搜索页,它会展示所有项目的链接。
1
以上是关于WebMagic 爬虫框架 注解用法的主要内容,如果未能解决你的问题,请参考以下文章 爬虫框架webmagic与spring boot的结合使用--转 |