python静态网页爬虫之xpath

Posted 2020-07-08 ❦邪恶毅小人❦

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python静态网页爬虫之xpath相关的知识，希望对你有一定的参考价值。

常用语句：

1.starts-with(@属性名称，属性字符相同部分）使用情形：以相同的字符开头

<div id = ‘test-1‘>需要的内容1</div>

<div id = ‘test-2‘>需要的内容2</div>

<div id = ‘test-3‘>需要的内容3</div>

selector = etree.html(html)
content = selector.xpath(‘//div[start-with(@id,‘test‘)]/text()‘)

2.string(.) 使用情形：标签套标签

<div id=‘class3‘>美女，

　　<font color=red>你微信号是多少？</font>

</div>

selector = etree.HTML(html)
data = selector.xpath(‘//div[@id=‘test3‘]‘)[0]   #先大后小
info = data.xpath(‘string(.)‘)
content = info.replace(‘\n‘,‘‘).replace(‘  ‘,‘‘)  #替换换行符和tab

以上是关于python静态网页爬虫之xpath的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫系列之 xpath：html解析神器

静态网页爬虫-安居客

爬虫系列之第2章-BS&Xpath模块

Python3爬虫——用Xpath提取网页信息

爬虫之BS&Xpath

python爬虫网页解析之parsel模块