Python BeautifulSoup从父/兄弟关系中获取内容

Question

html的一部分的结构如下。我想从中获得工作“头衔”和“时间”。我可以分别购买它们，例如：

from bs4 import BeautifulSoup


pages = '<div class="content"> \
                <a href="Org"> \
                        <h3 class="title"> \
                            Dep. Manager</h3> \
                        </a> \
                <div class="contributor"></div> \
                <p>John</p> \
                <time class="time"> \
                        <span class="timestamp">May 02 2016</span> \
                    </time> \
                </div>'


soup = BeautifulSoup(pages, "lxml")


soup.prettify()


s = soup.find_all(class_ = "title")[0]

t = soup.find_all('span', class_ = "timestamp")[0].text.strip()


pp_title = s.text.strip()

print t

print (pp_title)

它返回想要的我。

Dep. Manager
May 02 2016

对于“时间”，我想要另一种获取方式，因为“时间”始终位于“标题”之下。我尝试使用此行来获取“时间”，但它不起作用。

print (s.parent.next_sibling.next_sibling)

从关系中获得“时间”到“头衔”的正确方法是什么？谢谢。

Answer 1

另一答案

Answer 2

另一答案

Answer 3

另一答案