python爬虫如何定位
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫如何定位相关的知识,希望对你有一定的参考价值。
参考技术A 4种方法可以定位爬虫位置:1、传统 BeautifulSoup 操作
经典的 BeautifulSoup 方法借助 from bs4 import BeautifulSoup,然后通过 soup = BeautifulSoup(html, "lxml") 将文本转换为特定规范的结构,利用 find 系列方法进行解析。
2、基于 BeautifulSoup 的 CSS 选择器
这种方法实际上就是 PyQuery 中 CSS 选择器在其他模块的迁移使用,用法是类似的。关于 CSS 选择器详细语法可以参考:http://www.w3school.com.cn/cssref/css_selectors.asp 由于是基于 BeautifulSoup 所以导入的模块以及文本结构转换都是一致的。
3、XPath
XPath 即为 XML 路径语言,它是一种用来确定 XML 文档中某部分位置的计算机语言,如果使用 Chrome 浏览器建议安装 XPath Helper 插件,会大大提高写 XPath 的效率。
4、正则表达式
如果对 HTML 语言不熟悉,那么之前的几种解析方法都会比较吃力。这里也提供一种万能解析大法:正则表达式,只需要关注文本本身有什么特殊构造文法,即可用特定规则获取相应内容。依赖的模块是re
希望以上回答可以帮助到你。
以上是关于python爬虫如何定位的主要内容,如果未能解决你的问题,请参考以下文章
python爬虫-08-python爬虫使用xpath准确定位到页面中的某个内容
pathon selenium爬虫里面如何定位一个button元素?
[python爬虫] Selenium常见元素定位方法和操作的学习介绍