Xpath开始在Scrapy上重新调整无
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Xpath开始在Scrapy上重新调整无相关的知识,希望对你有一定的参考价值。
我正在尝试抓取一个网站并且这样做,我正在使用Scrapy。因此,在对嵌套页面发出请求时,该过程通常会在第一次尝试时正确获取信息,但是在以后的请求中,节点开始返回None。我正在使用xpath的功能。下面我粘贴了一些解析函数:
(我用明确比较类值的方法尝试了这个)
title = response.xpath('//span[@class="inlineFree"]/text()').extract_first()
(有了这个,我用了contains函数)
view = response.xpath('//span[contains(@class,"count")]/text()').extract_first()
(当我发现更合适的时候我也用过这个)
comments = response.css('div.commentMessage > span::text').extract()
我在路径上做错了吗?是否有任何理由让爬虫正确停止读取节点?
答案
如果没有日志消息或蜘蛛代码,不能说问题是什么,但大多数时候发生的事情是网站不遵循严格的html结构。对于某些属性,“标题”可能在范围内,但对于下一个迭代它可能是span [@ class =“inlineFree”] / h1 / text()或
或任何其他标记,所以你应该检查html返回无
以上是关于Xpath开始在Scrapy上重新调整无的主要内容,如果未能解决你的问题,请参考以下文章
Xpath不会返回content within (is not the issue)