使用 XPath 获取 HTML 元素的文本内容?
Posted
技术标签:
【中文标题】使用 XPath 获取 HTML 元素的文本内容?【英文标题】:Get text content of an HTML element using XPath? 【发布时间】:2013-01-15 21:31:57 【问题描述】:查看这个 html
<div>
<p>
<span class="abc">Monitor</span> <b>$300</b>
</p>
<a href="/add">Add to cart</a>
</div>
<div>
<p>
<span class="abc">Keyboard</span> $20
</p>
<a href="/add">Add to cart</a>
</div>
使用 xpath 我想解析 Monitor $300
和 Keyboard $20
。我使用这个 xpath
//div[a[contains(., "Add to cart")]]/p/text()
但它选择了<span class="abc">Monitor</span> <b>$300</b>
。我不想要标签。如何只获取文本?
【问题讨论】:
text()
永远不应该选择元素。你用的是什么 XML 解析器?
@choroba scrapy.selector.lxmlsel.HtmlXPathSelector
您如何访问该值?在 DOM Level 3 单词中,您可以选择 p
元素,例如//div[a[contains(., "Add to cart")]]/p
然后访问textContent
属性以获取纯文本内容。
@MartinHonnen 我正在使用XPathSelector
【参考方案1】:
您想选择所有后代文本,而不仅仅是子文本:
//div[a[contains(., "Add to cart")]]/p//text()
注意p
和text()
之间的双斜线。
这可能还会包含很多标签间空白,但您需要清理它们。使用lxml
的示例:
>>> import lxml.etree as ET
>>> tree = ET.fromstring('''<div>
... <div>
... <p>
... <span class="abc">Monitor</span> <b>$300</b>
... </p>
... <a href="/add">Add to cart</a>
... </div>
... <div>
... <p>
... <span class="abc">Keyboard</span> $20
... </p>
... <a href="/add">Add to cart</a>
... </div>
... </div>''')
>>> tree.xpath('//div[a[contains(., "Add to cart")]]/p//text()')
['\n ', 'Monitor', ' ', '$300', '\n ', '\n ', 'Keyboard', ' $20 \n ']
>>> res = _
>>> [txt for txt in (txt.strip() for txt in res) if txt]
['Monitor', '$300', 'Keyboard', '$20']
【讨论】:
哇!那双//
拯救了我的一天
很高兴为您工作。 :-) 我只是确保您了解空格的来源以及如何清理它。以上是关于使用 XPath 获取 HTML 元素的文本内容?的主要内容,如果未能解决你的问题,请参考以下文章