WebMagic 爬虫框架 注解用法

Posted 悦码

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了WebMagic 爬虫框架 注解用法相关的知识,希望对你有一定的参考价值。


自从java注解出来之后,就无框架不注解。同样的 WebMagic 爬虫框架也支持注解的方式实现网页的抓取,今天为大家分享一下 WebMagic 爬虫的注解教程。

@  TargetUrl和@HelpUrl

HelpUrl/TargetUrl是一个非常有效的爬虫开发模式,TargetUrl是我们最终要抓取的URL,最终想要的数据都来自这里;而HelpUrl则是为了发现这个最终URL,我们需要访问的页面。几乎所有垂直爬虫的需求,都可以归结为对这两类URL的处理:

  • 对于博客页,HelpUrl是列表页,TargetUrl是文章页。

  • 对于论坛,HelpUrl是帖子列表,TargetUrl是帖子详情。

  • 对于电商网站,HelpUrl是分类列表,TargetUrl是商品详情。

下面的例子中,TargetUrl是最终的项目页,而HelpUrl则是项目搜索页,它会展示所有项目的链接。

(c)2006-2024 SYSTEM All Rights Reserved IT常识