Stormcrawler的ContentParseFilter

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Stormcrawler的ContentParseFilter相关的知识,希望对你有一定的参考价值。

如果我将StormCrawler的ContentParseFilter设置为

"pattern": "//DIV[@id="site-body"]",

这是否意味着在处理每个网址时,它是唯一可以查找其他网页链接的地方?我想知道我是否设置它,如果它将开始忽略菜单中的所有网址等。

谢谢!吉姆

答案

WIKI page for ParseFilters

ContentFilter允许将文档的文本限制为Xpath表达式所涵盖的文本

它根本不影响链接的提取,但旨在改进索引的文本。

以上是关于Stormcrawler的ContentParseFilter的主要内容,如果未能解决你的问题,请参考以下文章

如何在StormCrawler中使用快速URL过滤器?

StormCrawler的default-regex-filters.txt

无法将StormCrawler连接到安全的Elasticsearch

在StormCrawler上获取拓扑以正确编写warc文件

Tika Parser放慢了StormCrawler的速度

在storm ui中,没有tuples被拓扑发出或传递。