Stormcrawler的ContentParseFilter
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Stormcrawler的ContentParseFilter相关的知识,希望对你有一定的参考价值。
如果我将StormCrawler的ContentParseFilter设置为
"pattern": "//DIV[@id="site-body"]",
这是否意味着在处理每个网址时,它是唯一可以查找其他网页链接的地方?我想知道我是否设置它,如果它将开始忽略菜单中的所有网址等。
谢谢!吉姆
答案
ContentFilter允许将文档的文本限制为Xpath表达式所涵盖的文本
它根本不影响链接的提取,但旨在改进索引的文本。
以上是关于Stormcrawler的ContentParseFilter的主要内容,如果未能解决你的问题,请参考以下文章
StormCrawler的default-regex-filters.txt