爬虫日记-html的遍历

Posted chanyuli

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫日记-html的遍历相关的知识,希望对你有一定的参考价值。

基于bs4库的html遍历方法

技术图片

标签树的下行遍历

技术图片

来手打栗子,依然是用上一节的demo

import requests
from bs4 import BeautifulSoup
r=requests.get('https://python123.io/ws/demo.html')
demo=r.text
soup = BeautifulSoup(demo,'html.parser')
print(soup.prettify())

技术图片

contents打印出了所有子标签,存在列表里展示

也可以通过索引取值。

技术图片

标签树的上行遍历

技术图片

技术图片

html已经是html的最高级标签了,没有父标签,所以他的父标签就是它本身。

因为 soup的父节点没有,所以返回了一个空

标签树的上行遍历

技术图片

这里拿出了一个parents,注意不是parent,所以这里是以上所有的父标签,放入一个列表之中,就可以迭代了,他就会每次都输出一个父标签的名字了。

标签树的平行遍历

技术图片

需要注意的是,平行遍历只发生在同一个父亲节点之下,若是另一个节点之下的标签,是不算他的平行节点的。

技术图片

最后一个打印结果为None,因为他的上上个已经没有平行节点了,所以为空。

技术图片

这个平行遍历就不多讲了。就是这样实现的,和遍历父节点是一个原理。

技术图片

这就是今天的总结图

以上是关于爬虫日记-html的遍历的主要内容,如果未能解决你的问题,请参考以下文章

宽度优先遍历爬虫的python实现

p神之python目录遍历,爬虫

用python写网络爬虫 -从零开始 3 编写ID遍历爬虫

Python爬虫入门——利用bs4库对HTML页面信息进行遍历读取

Python爬虫五 BeautifulSoup库

使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解(新手必学)