如何在StormCrawler中使用快速URL过滤器?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在StormCrawler中使用快速URL过滤器?相关的知识,希望对你有一定的参考价值。

我遇到了快速网址过滤器。它提供了几个选项,例如将过滤器应用于特定域。有人可以查询有关其使用情况的更多详细信息以及如何在url filters.json中配置它?

答案

可以像urlfilters.json一样配置过滤器,就像任何其他过滤器一样

 {
  "class": "com.digitalpebble.stormcrawler.filtering.regex.FastURLFilter",
  "name": "FastURLFilter",
  "params": {
    "file": "fast.urlfilter.json"
  }
}

file参数是可选的,默认采用上面给出的值。

有关详细信息,请参阅JAVADOCBLOGWIKI

以上是关于如何在StormCrawler中使用快速URL过滤器?的主要内容,如果未能解决你的问题,请参考以下文章

StormCrawler的default-regex-filters.txt

如果面试官问你布隆过滤器,你该怎么回答?

Stormcrawler的ContentParseFilter

腾讯面试官是这样问布隆过滤器的

在StormCrawler上获取拓扑以正确编写warc文件

腾讯面试官竟然这样来问布隆过滤器的?