Stormcrawler的ContentParseFilter

Posted 2021-04-07

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Stormcrawler的ContentParseFilter相关的知识，希望对你有一定的参考价值。

如果我将StormCrawler的ContentParseFilter设置为

"pattern": "//DIV[@id="site-body"]",

这是否意味着在处理每个网址时，它是唯一可以查找其他网页链接的地方？我想知道我是否设置它，如果它将开始忽略菜单中的所有网址等。

谢谢！吉姆

答案

ContentFilter允许将文档的文本限制为Xpath表达式所涵盖的文本

它根本不影响链接的提取，但旨在改进索引的文本。

以上是关于Stormcrawler的ContentParseFilter的主要内容，如果未能解决你的问题，请参考以下文章