谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容相关的知识,希望对你有一定的参考价值。
因为你在浏览器中看到的dom结构,可能是js脚本动态修改过的,与html源文件中的dom树结构不一样!所以浏览器直接提取的xpath在相当多的情况下都是不能用的!这种问题在爬虫项目很常见,你要看html原始dom结构!要想真正学爬虫,还要去学下html,js知识 参考技术A 建议用360系统急救箱修复,然后得瓣安装谷歌浏览器就可以正常。
XPath
一门在XML文档中查找信息的语言,通过属性和元素进行导航 可用于HTML文档
大部分浏览器也支持通过XPath来查询节点
在Python爬虫开发中经常使用XPath查询提取网页中的 信息 因此XPath非常重要
-------
XPath既然 叫Path 以路径表达式的形式来指定元素
节点 语法 轴 和运算符
-----
XML文档是被作为节点树来对待的
七种类型的节点
元素 属性 文本 命名空间 处理指令 注释及文档根节点
树的根 被称为 文档节点或者根节点
----------
<?xml version=‘1.0‘ encoding="ISO-8859-1" ?>
发光发热
父Parent 子 Children 同胞 Sibling 先辈 Ancestor
后代Descendant
------
以上是关于谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容的主要内容,如果未能解决你的问题,请参考以下文章
谷歌浏览器直接提取的xpath,在python中为啥无法提取相应内容
Chrome安装爬虫必备插件:Xpath Helper高效解析网页内容(实测有效)