webmagic 初始化 startRequests

Posted 瓜子

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了webmagic 初始化 startRequests相关的知识,希望对你有一定的参考价值。

在spider类中有三个方法可以初始化startRequests。可以对这些地方进行扩展。

    /**
     * create a spider with pageProcessor.
     *
     * @param pageProcessor pageProcessor
     */
    public Spider(PageProcessor pageProcessor) {
        this.pageProcessor = pageProcessor;
        this.site = pageProcessor.getSite();
        this.startRequests = pageProcessor.getSite().getStartRequests();
    }

    /**
     * Set startUrls of Spider.<br>
     * Prior to startUrls of Site.
     *
     * @param startUrls startUrls
     * @return this
     */
    public Spider startUrls(List<String> startUrls) {
        checkIfRunning();
        this.startRequests = UrlUtils.convertToRequests(startUrls);
        return this;
    }

    /**
     * Set startUrls of Spider.<br>
     * Prior to startUrls of Site.
     *
     * @param startRequests startRequests
     * @return this
     */
    public Spider startRequest(List<Request> startRequests) {
        checkIfRunning();
        this.startRequests = startRequests;
        return this;
    }

 

以上是关于webmagic 初始化 startRequests的主要内容,如果未能解决你的问题,请参考以下文章

爬虫(工具:webmagic)

WebMagic爬虫Demo

WebMagic基础与Maven管理依赖

WebMagic快速入门

WebMagic

WebMagic-使用入门