GuozhongCrawler系列教程 StartContext具体解释

Posted 2020-09-11 yutingliuyl

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了GuozhongCrawler系列教程 StartContext具体解释相关的知识，希望对你有一定的参考价值。

StartContext是注入时全部seed的上下文信息假设爬虫在抓取过程其中须要共享一些变量。那么可使用StartContext作为容器。

构造器具体资料

StartContext
```
public StartContext()
```
构造一个StartContext。
通经常使用来充当seedRequest的容器

StartContext

public StartContext(java.lang.String url,
            java.lang.Class<? extends PageProcessor> processorCls)

构造一个StartContext。而且增加一个种子URL

參数:: url -; processorCls -

StartContext

public StartContext(java.lang.String url,
            java.lang.Class<? extends PageProcessor> processorCls,
            PageRequest.PageEncoding pageEncoding)

构造一个StartContext。而且增加一个种子URL

參数:: url -; processorCls -; pageEncoding - URL相应网页的编码

方法具体资料

createPageRequest
```
public PageRequest createPageRequest(java.lang.String url,
                            java.lang.Class<? extends PageProcessor> processorCls)
```
创建网页下载请求PageRequest

參数:
url - 这个请求相应的http或者https 地址
processorCls - 下载完毕后处理这个网页Page的PageProcessor的class对象
返回:
PageRequest

createPageRequest
```
public PageRequest createPageRequest(java.lang.String url,
                            java.lang.Class<? extends PageProcessor> processorCls,
                            int priority,
                            PageRequest.PageEncoding pageEncoding)
```
创建网页下载请求PageRequest

參数:
url - 这个请求相应的http或者https 地址
processorCls - 下载完毕后处理这个网页Page的PageProcessor的class对象
priority - 设置这个PageRequest的priority。须要注意的仅仅有使用crawTaskBuilder.useQueuePriorityRequest或者crawTaskBuilder.useQueueDelayedPriorityRequest的时候 priority才会起作用并排序。
pageEncoding - 这个PageRequest相应URL的网页编码格式。
假设不指定那么会用crawTaskBuilder中指定的usePageEncoding。假设crawTaskBuilder没有使用usePageEncoding。则默认用UTF-8编码
返回:
PageRequest

createPageRequest
```
public PageRequest createPageRequest(java.lang.String url,
                            java.lang.Class<? extends PageProcessor> processorCls,
                            int priority)
```
创建网页下载请求PageRequest

參数:
url - 这个请求相应的http或者https 地址
processorCls - 下载完毕后处理这个网页Page的PageProcessor的class对象
priority - 设置这个PageRequest的priority。须要注意的仅仅有使用crawTaskBuilder.useQueuePriorityRequest或者crawTaskBuilder.useQueueDelayedPriorityRequest的时候 priority才会起作用并排序。
返回:
PageRequest

createBinaryRequest
```
public BinaryRequest createBinaryRequest(java.lang.String url,
                                java.lang.Class<? extends BinaryProcessor> processorCls)
```
创建一个二进制下载请求

參数:
url - 这个请求相应的http或者https 地址
processorCls - 文件下载时处理这个InputStream的BinaryProcessor的class对象
返回:
BinaryRequest

createTransactionRequest
```
public TransactionRequest createTransactionRequest(TransactionCallBack transactionCallBack)
```
创建支持事务的下载请求。

參数:
transactionCallBack - 事务完毕后的回调接口的Class
返回:
TransactionRequest

createTransactionRequest

public TransactionRequest createTransactionRequest(TransactionCallBack transactionCallBack,
                                          BasicRequest... child)

给定一个child集合创建支持事务的下载请求。

參数:: transactionCallBack - 事务完毕后的回调接口; child - child集合
返回:: TransactionRequest

injectSeed

public void injectSeed(BasicRequest request)

注入种子

參数:: request -

getSeedRequests
```
public java.util.List<BasicRequest> getSeedRequests()
```
返回该StartContext所包括的全部种子URL

返回:

getContextAttribute
```
public java.lang.Object getContextAttribute(java.lang.String attribute)
```
返回attribute相应的value 这种方法是线程安全的

參数:
key -
返回:
返回attribute相应的value

putContextAttribute
```
public java.lang.Object putContextAttribute(java.lang.String attribute,
                                   java.lang.Object value)
```
向StartContext域put一个属性值。并返回之前的attribute相应的value。
假设之前没有attribute属性那么返回null。这种方法是线程安全的

參数:
attribute -
value -
返回:
返回之前的attribute相应的value。假设之前没有attribute属性那么返回null