BeautifulSoup 4、findNext()函数

Posted

技术标签:

【中文标题】BeautifulSoup 4、findNext()函数【英文标题】:BeautifulSoup 4, findNext() function 【发布时间】:2013-03-24 04:17:50 【问题描述】:

我正在玩 BeautifulSoup 4,我有这个 html 代码:

</tr>
          <tr>
<td id="freistoesse">Giraffe</td>
<td>14</td>
<td>7</td>
</tr>

我想匹配 &lt;td&gt; 标签之间的两个值,所以这里是 14 和 7。

我试过了:

giraffe = soup.find(text='Giraffe').findNext('td').text

但这仅匹配14。如何将这两个值与此函数匹配?

【问题讨论】:

【参考方案1】:

使用find_all 代替findNext

import bs4 as bs
content = '''\
<tr>
<td id="freistoesse">Giraffe</td>
<td>14</td>
<td>7</td>
</tr>'''
soup = bs.BeautifulSoup(content)

for td in soup.find('td', text='Giraffe').parent.find_all('td'):
    print(td.text)

产量

Giraffe
14
7

或者,您可以使用find_next_siblings(也称为fetchNextSiblings):

for td in soup.find(text='Giraffe').parent.find_next_siblings():
    print(td.text)

产量

14
7

说明:

请注意,soup.find(text='Giraffe') 返回一个 NavigableString。

In [30]: soup.find(text='Giraffe')
Out[30]: u'Giraffe'

要获取关联的td 标签,请使用

In [31]: soup.find('td', text='Giraffe')
Out[31]: <td id="freistoesse">Giraffe</td>

In [32]: soup.find(text='Giraffe').parent
Out[32]: <td id="freistoesse">Giraffe</td>

一旦你有了td标签,你就可以使用find_next_siblings

In [35]: soup.find(text='Giraffe').parent.find_next_siblings()
Out[35]: [<td>14</td>, <td>7</td>]

PS。 BeautifulSoup 添加了使用下划线而不是 CamelCase 的方法名称。他们做同样的事情,但符合 PEP8 风格指南的建议。因此,比起fetchNextSiblings,更喜欢find_next_siblings

【讨论】:

谢谢,不知道为什么 #1 方法给我一个错误:AttributeError: 'NavigableString' object has no attribute 'find_all'ideas? soup.find(text='Giraffe') 返回NavigableString。使用soup.find('td', text='Giraffe') 会为您提供td 标签。从那里拨打fetchNextSibling() 非常感谢您的快速帮助!

以上是关于BeautifulSoup 4、findNext()函数的主要内容,如果未能解决你的问题,请参考以下文章

Excel VBA 使用 .Find 和 .FindNext 查找精确字符串

_findfirst和_findnext

解决Win10下_findnext()异常

Excel VBA - 使用 FindNext 后功能停止(在子程序中工作)

Excel VBA Range.FindNext v Range.Find - 我错过了啥?

_finddata_t, _findfirst, _findnext for Mac OS-X