Scrapy LinkExtractor特定网址

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scrapy LinkExtractor特定网址相关的知识,希望对你有一定的参考价值。

我正在抓取一个网站。但是,当前代码重定向我,不会从我想要的URL爬网。

URL:http://www.example.com/book/diff/其中diff可以是除/之外的任何内容。要添加,我只想抓取与网址匹配的网址。

这是我目前的代码:

 name = "testing"
allowed_domains = ['example.com']
start_urls = [
    'http://www.example.com/book/',
]

rules = (Rule(LinkExtractor(allow=(r'^http://www.example.com/book/[^/]*/$')),
 callback='parse_page',follow=True),)
答案
    rules = (Rule(LinkExtractor(allow=(r'^http://www.example.com/book/')), callback='parse_page',follow=True),)

这应该足够了。

以上是关于Scrapy LinkExtractor特定网址的主要内容,如果未能解决你的问题,请参考以下文章

Scrapy:LinkExtractor 不工作

Scrapy - 了解 CrawlSpider 和 LinkExtractor

如何在 Scrapy 中创建基于 href 的 LinkExtractor 规则

Scrapy LinkExtractor - 要遵循哪个 RegEx?

python爬虫scrapy的LinkExtractor

python爬虫scrapy之rules的基本使用