Xpath开始在Scrapy上重新调整无

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Xpath开始在Scrapy上重新调整无相关的知识,希望对你有一定的参考价值。

我正在尝试抓取一个网站并且这样做,我正在使用Scrapy。因此,在对嵌套页面发出请求时,该过程通常会在第一次尝试时正确获取信息,但是在以后的请求中,节点开始返回None。我正在使用xpath的功能。下面我粘贴了一些解析函数:

(我用明确比较类值的方法尝试了这个)

title = response.xpath('//span[@class="inlineFree"]/text()').extract_first()

(有了这个,我用了contains函数)

view = response.xpath('//span[contains(@class,"count")]/text()').extract_first()

(当我发现更合适的时候我也用过这个)

comments = response.css('div.commentMessage > span::text').extract()

我在路径上做错了吗?是否有任何理由让爬虫正确停止读取节点?

答案

如果没有日志消息或蜘蛛代码,不能说问题是什么,但大多数时候发生的事情是网站不遵循严格的html结构。对于某些属性,“标题”可能在范围内,但对于下一个迭代它可能是span [@ class =“inlineFree”] / h1 / text()或

或任何其他标记,所以你应该检查html返回无

以上是关于Xpath开始在Scrapy上重新调整无的主要内容,如果未能解决你的问题,请参考以下文章

查找xpath祖父母(使用scrapy)

Xpath不会返回content within (is not the issue)

Scrapy Spider没有返回所有元素

Python中Scrapy框架元素选择器XPath的简单实例

scrapy

爬虫:网页里元素的xpath结构,scrapy不一定就找的到