在beautifulSoup中获取下一个项目

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在beautifulSoup中获取下一个项目相关的知识,希望对你有一定的参考价值。

有了美丽的汤,我需要检测一个表达的含义。根据许多定义,只需要一个。在美丽的汤中,内容如下:

<strong>occhio della testa</strong><br/>
loc.s.m <br/>
<span class="mu"title="">CO</span><span style="color:#000"> </span><br/>
follia<br/>
<strong>pagare un occhio della testa</strong><br/>
loc.v.<br/>
<span class="mu"title="">CO</span><span style="color:#000"> </span><br/>
strapagare<br/>
<strong>passare per la testa</strong><br/>
loc.v.<br/>
<span class="mu" title="">CO</span><span style="color:#000"> </span><br/>
passare per la mente<br/>
<strong>perdere la testa</strong><br/>
loc.v.<br/>
<span class="mu" title="">CO</span><span style="color:#000"> </span><br/>
entrare in uno stato di confusione mentale; impazzire, spec. fig.: ha perso la testa per quella donna, se ne è perdutamente innamorato<br/>
<strong>

我从上面的文字中得到的是:

pagare un occhio della testa:strapagare

我试过这个

# list of expressions that I need their meaning
myitems = ['pagare un occhio della testa', '....' , '....']

for ex in myitems:
    ws = ex.split()
    li = ""
    url = "https://mydictionary/" + ws[-1]+ ""
    if urllib.request.urlopen(url):
        htmlfile = urllib.request.urlopen(url)
        soup = BeautifulSoup(htmlfile, 'lxml')
        txt = soup.text
        if ex in txt:
           li = '%s = %r' % (es, soup.next_siblings)
    print(li)

此代码仅提供ex。有人可以帮忙吗?

答案

我不知道结构有多规则,但对于上面你可以使用以下(bs4 4.7.1):

soup.select_one('strong:contains("pagare un occhio della testa") ~ span + span').next_sibling.next_sibling.strip()

以上是关于在beautifulSoup中获取下一个项目的主要内容,如果未能解决你的问题,请参考以下文章

Python 利用 BeautifulSoup 爬取网站获取新闻流

获取 BeautifulSoup 中表格的内容

使用 BeautifulSoup 获取标签的孩子数

Python beautifulsoup 获取标签中的值 怎么获取?

11-BeautifulSoup库详解

在 python BeautifulSoup 上获取带有特定前缀的超链接