谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容相关的知识,希望对你有一定的参考价值。

因为你在浏览器中看到的dom结构,可能是js脚本动态修改过的,与html源文件中的dom树结构不一样!所以浏览器直接提取的xpath在相当多的情况下都是不能用的!
这种问题在爬虫项目很常见,你要看html原始dom结构!要想真正学爬虫,还要去学下html,js知识
参考技术A 建议用360系统急救箱修复,然后得瓣安装谷歌浏览器就可以正常。

XPath

一门在XML文档中查找信息的语言,通过属性和元素进行导航 可用于HTML文档

大部分浏览器也支持通过XPath来查询节点 

在Python爬虫开发中经常使用XPath查询提取网页中的 信息  因此XPath非常重要

-------

XPath既然 叫Path 以路径表达式的形式来指定元素

节点 语法 轴 和运算符

-----

XML文档是被作为节点树来对待的 

七种类型的节点

元素   属性 文本 命名空间  处理指令 注释及文档根节点

树的根 被称为 文档节点或者根节点

----------

<?xml version=‘1.0‘   encoding="ISO-8859-1" ?>

 

 

发光发热

父Parent  子 Children  同胞 Sibling  先辈  Ancestor

后代Descendant

------

 

以上是关于谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容的主要内容,如果未能解决你的问题,请参考以下文章

谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容

爬虫进阶数据提取-lxml模块(万能操作)

python爬虫 XPath语法

Chrome安装爬虫必备插件:Xpath Helper高效解析网页内容(实测有效)

1.Scrapy爬虫之静态网页爬取之一 了解response.xpath()

python爬虫-简单使用xpath下载图片