谷歌浏览器直接提取的xpath，在python中为啥无法提取相应内容

Posted 2023-05-12

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了谷歌浏览器直接提取的xpath，在python中为啥无法提取相应内容相关的知识，希望对你有一定的参考价值。

因为你在浏览器中看到的dom结构，可能是js脚本动态修改过的，与html源文件中的dom树结构不一样！所以浏览器直接提取的xpath在相当多的情况下都是不能用的！
这种问题在爬虫项目很常见，你要看html原始dom结构！要想真正学爬虫，还要去学下html，js知识参考技术A 建议用360系统急救箱修复，然后得瓣安装谷歌浏览器就可以正常。

XPath

一门在XML文档中查找信息的语言，通过属性和元素进行导航可用于HTML文档

大部分浏览器也支持通过XPath来查询节点

在Python爬虫开发中经常使用XPath查询提取网页中的信息因此XPath非常重要

-------

XPath既然叫Path 以路径表达式的形式来指定元素

节点语法轴和运算符

-----

XML文档是被作为节点树来对待的

七种类型的节点

元素属性文本命名空间处理指令注释及文档根节点

树的根被称为文档节点或者根节点

----------

<?xml version=‘1.0‘ encoding="ISO-8859-1" ?>

发光发热

父Parent 子 Children 同胞 Sibling 先辈 Ancestor

后代Descendant

------

以上是关于谷歌浏览器直接提取的xpath，在python中为啥无法提取相应内容的主要内容，如果未能解决你的问题，请参考以下文章

谷歌浏览器直接提取的xpath，在python中为啥无法提取相应内容

爬虫进阶数据提取-lxml模块（万能操作）

python爬虫 XPath语法

Chrome安装爬虫必备插件：Xpath Helper高效解析网页内容（实测有效）

1.Scrapy爬虫之静态网页爬取之一了解response.xpath()

python爬虫-简单使用xpath下载图片