python学习之----导航树

Posted 2020-09-05

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python学习之----导航树相关的知识，希望对你有一定的参考价值。

findAll 函数通过标签的名称和属性来查找标签。但是如果你需要通过标签在文档中的位

置来查找标签，该怎么办？这就是导航树（Navigating Trees）的作用。在第1 章里，我们

看过用单一方向进行BeautifulSoup 标签树的导航：

bsObj.tag.subTag.anotherSubTag

现在我们用虚拟的在线购物网站http://www.pythonscraping.com/pages/page3.html 作为要抓取的示例网页

这个HTML 页面可以映射成一棵树（为了简洁，省略了一些标签），如下所示：

? html

— body

— div.wrapper

— h1

— div.content

— table#giftList

— tr

— th

— tr.gift#gift1

— td

— span.excitingNote

— td

— img

— ……其他表格行省略了……

— div.footer

在后面几节内容里，我们仍然以这个HTML 标签结构为例。

1. 处理子标签和其他后代标签

在计算机科学和一些数学领域中，你经常会听到“虐子”事件（比喻对一些子事件

的处理方式）：移动它们，储存它们，删除它们，甚至杀死它们。值得庆幸的是，在

BeautifulSoup 里，子标签的处理方式没那么残忍。

和许多其他库一样，在BeautifulSoup 库里，孩子（child）和后代（descendant）有显著的

不同：和人类的家谱一样，子标签就是一个父标签的下一级，而后代标签是指一个父标签

下面所有级别的标签。例如，tr 标签是tabel 标签的子标签，而tr、th、td、img 和span

标签都是tabel 标签的后代标签（我们的示例页面中就是如此）。所有的子标签都是后代标

签，但不是所有的后代标签都是子标签。

一般情况下，BeautifulSoup 函数总是处理当前标签的后代标签。例如，bsObj.body.h1 选

择了body 标签后代里的第一个h1 标签，不会去找body 外面的标签。

类似地，bsObj.div.findAll("img") 会找出文档中第一个div 标签，然后获取这个div 后

代里所有的img 标签列表。

如果你只想找出子标签，可以用.children 标签：

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")

bsObj = BeautifulSoup(html)

for child in bsObj.find("table",{"id":"giftList"}).children:

print(child)

这段代码会打印giftList 表格中所有产品的数据行。如果你用descendants() 函数而不是

children() 函数，那么就会有二十几个标签打印出来，包括img 标签、span 标签，以及每

个td 标签。掌握子标签与后代标签的差别十分重要！

2. 处理兄弟标签

BeautifulSoup 的next_siblings() 函数可以让收集表格数据成为简单的事情，尤其是处理

带标题行的表格：

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")

bsObj = BeautifulSoup(html)

for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings:

print(sibling)

这段代码会打印产品列表里的所有行的产品，第一行表格标题除外。为什么标题行被跳过

了呢？有两个理由。首先，对象不能把自己作为兄弟标签。任何时候你获取一个标签的兄

弟标签，都不会包含这个标签本身。其次，这个函数只调用后面的兄弟标签。例如，如果

我们选择一组标签中位于中间位置的一个标签，然后用next_siblings() 函数，那么它就

只会返回在它后面的兄弟标签。因此，选择标签行然后调用next_siblings，可以选择表

格中除了标题行以外的所有行。

和next_siblings 一样，如果你很容易找到一组兄弟标签中的最后一个标签，那么

previous_siblings 函数也会很有用。

当然，还有next_sibling 和previous_sibling 函数，与next_siblings 和previous_siblings

的作用类似，只是它们返回的是单个标签，而不是一组标签。

3. 父标签处理

在抓取网页的时候，查找父标签的需求比查找子标签和兄弟标签要少很多。通常情况

下，如果以抓取网页内容为目的来观察HTML 页面，我们都是从最上层标签开始的，然

后思考如何定位我们想要的数据块所在的位置。但是，偶尔在特殊情况下你也会用到

BeautifulSoup 的父标签查找函数，parent 和parents。例如：

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")

bsObj = BeautifulSoup(html)

print(bsObj.find("img",{"src":"../img/gifts/img1.jpg"

}).parent.previous_sibling.get_text())