Beautiful Soup常见的解析器

Posted 道高一尺

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Beautiful Soup常见的解析器相关的知识,希望对你有一定的参考价值。

Beautiful Soup支持Python标准库中的html解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。

 

解析器使用方法优势劣势
Python标准库 BeautifulSoup(markup, “html.parser”)
  • Python的内置标准库
  • 执行速度适中
  • 文档容错能力强
  • Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器 BeautifulSoup(markup, “lxml”)
  • 速度快
  • 文档容错能力强
  • 需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup, [“lxml”, “xml”])BeautifulSoup(markup, “xml”)
  • 速度快
  • 唯一支持XML的解析器
  • 需要安装C语言库
html5lib BeautifulSoup(markup, “html5lib”)
  • 最好的容错性
  • 以浏览器的方式解析文档
  • 生成HTML5格式的文档
  • 速度慢

以上是关于Beautiful Soup常见的解析器的主要内容,如果未能解决你的问题,请参考以下文章

Python Beautiful Soup 解析库的使用

爬虫学习——网页解析器Beautiful Soup

Python爬虫编程思想(50):编写第一个Beautiful Soup程序

爬虫之Beautiful Soup

当我在 Chrome 中单击检查时,如何让 Beautiful soup html 解析器与显示的代码相同?

Python爬虫之Beautiful Soup