xpath怎么抓取<div>下的所有<p>标签的文字

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了xpath怎么抓取<div>下的所有<p>标签的文字相关的知识,希望对你有一定的参考价值。

我想用xpath抓取所有<p>标签下的文字内容,获取内容1、内容2、和内容3
例如:
<div class="top1">
<p>内容1</p>
<p>内容2</p>
<p>内容3</p>
</div>
使用 page.putField("message", page.gethtml().xpath("//div[@class='top1']//p/text()"));

只能获取第一个<p>标签,如何获取全部的内容
如果<p>标签下再加一层<span>又该如何获取,如:
<div class="top1">
<p>
<span>内容1</span>
</p>
<p>
<span>内容2</span>
</p>
<p>
<span>内容3</span>
</p>
</div>

  实现方法如下:
  加载到XmlDocument,查找p子节点(XPath),如果要在子节点内继续查找,用递归;
  string patten_block="<div class=\\"wm_sktq_l\\">[\\\\s\\\\S]*</div>"
  string patten_p="<p>[\\\\s\\\\S]*</p>" 用组获取。
参考技术A 是python吗?
from lxml import etree
conturl = 'http://www.xxxx.com.cn'
html = httpget(conturl)
假如html是

<div class="top1">
<p>内容1</p>
<p>内容2</p>
<p>内容3</p>
</div>
ehtml = etree.HTML(html)
strings = ehtml.xpath("//div[@class='top1']/p/text()")
这样应该就可以吧应该就是['内容1','内容2','内容3']
参考技术B 用jquery做很简单, $(".top1 p").eq(0).html()
再加一个span的话$(".top1 p span").eq(0).html()
.eq()里面可以传个变量
参考技术C css/选择器分组就可以

xpath获取当前标签下的所有文本

举个栗子,也是在下爬新浪微博移动端时遇到的问题,微博评论有普通评论、回复他人评论和热门评论,详情:

普通评论

技术分享图片

回复他人评论

技术分享图片

 热门评论

技术分享图片

 用户评论内容都在<span class="ctt"></span>中,其中,普通评论和热门评论内容都很容易提取,采用.xpath[‘span[@class=‘ctt‘]/text()‘]即可

 但回复他人评论的内容被分割成三个部分,要全部获取代码如下

1 test= comment.xpath(".//span[@class=‘ctt‘]")
2 result = test[0].xpath(string(.)).strip()

就可提取出:“回复@仙儿哥哥:您好,小v私信您了解下,请您查看下消息”

注:".//span[@class=‘ctt‘]"中的“.”表示选取当前节点,必须有!参考的下文链接中没有“.”,经试验只能爬取到子标签下的全部文本,有需要提取子标签下全部文本的可自行去掉“.”

参考:https://blog.csdn.net/qq_39429962/article/details/84196938

 

以上是关于xpath怎么抓取<div>下的所有<p>标签的文字的主要内容,如果未能解决你的问题,请参考以下文章

如何用bs或者xpath获取指定标签下的某一标签的所有文本?

一起来学习XPATH,来看看除了正则表达式我们还能怎么抓取数据

具有多个类的 Scrapy 抓取 div?

JS 删除指定标签下的所有DIV,要用啥方法?

使用 XPath 匹配除一个之外的所有元素和文本

使用特定类抓取所有 div 标签的内容