谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容相关的知识,希望对你有一定的参考价值。

参考技术A 你的xpath写的太长了吧,很容易出错的内容的tr的class都是provincetr,用这个筛选容易多了,//tr[@class="provincetr"]/td/a/text()xpath不熟悉,看了下wiki写出来的,写的不好补充,这个才算真正回答你的问题,为什么浏览器可以,但是lxml不可以因为浏览器对不标准的html文档都有纠正功能,而lxml不会查看page source,注意是源代码,不是developer tool那个;最后一个table并没有包含tbody,浏览器会自动补充tbody,而lxml没有这么做,所以你的xpath没有找到

以上是关于谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容的主要内容,如果未能解决你的问题,请参考以下文章

谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容

爬虫进阶数据提取-lxml模块(万能操作)

python爬虫 XPath语法

Chrome安装爬虫必备插件:Xpath Helper高效解析网页内容(实测有效)

1.Scrapy爬虫之静态网页爬取之一 了解response.xpath()

python爬虫-简单使用xpath下载图片