如何使用 Xpath 获取纯文本

Posted

技术标签:

【中文标题】如何使用 Xpath 获取纯文本【英文标题】:How to get plain text with Xpath 【发布时间】:2021-02-18 11:19:59 【问题描述】:

嗨,我得到了这段 html,我想从中获取文本元素

<span id="product_description" itemprop="description" class="">
    <h1>Toltec Lighting 216-BRZ-508 Leaf Collection Traditional Potrack With Italian Marble Glass In Bronze</h1>
    <br class="">
    <span style="font-weight: bold;" class="">MANUFACTURE: </span>
    Toltec Lighting
    <br class=" xh-highlight">
    <span style="font-weight: bold;" class="">COLLECTION: </span>
    Leaf
    <br class=" xh-highlight">
</span>

我想获取值列表。在这种情况下,它将是“Toltec Lighting”和“Leaf”

【问题讨论】:

【参考方案1】:

你可以试试这个:

//span[@id='product_description']/text()

或者如果您还需要确保没有选择空文本节点:

//span[@id='product_description']/text()[normalize-space()]

【讨论】:

我也想包含文本值。我怎么能做到这一点?下面一个有效吗? //span[@id='product_description']/text()['COLLECTION: ']【参考方案2】:

你可以试试这个:

//*[text()='Toltec Lighting']

【讨论】:

以上是关于如何使用 Xpath 获取纯文本的主要内容,如果未能解决你的问题,请参考以下文章

如果它是使用 XPath 在 Scrapy 中的其他节点的父节点,如何从子节点获取文本

xpath如何获取节点下的所有子孙节点的文本

如何使用 XPath 选择链接的内部文本?

如何匹配文本节点然后使用 XPath 跟随父节点

如何使用 javascript 将网页作为纯文本获取,而没有任何 html? [复制]

如何从 NDEF 记录对象中获取纯文本?