Beautiful Soup 4.2.0文档阅读笔记

Posted narisu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Beautiful Soup 4.2.0文档阅读笔记相关的知识,希望对你有一定的参考价值。

Beautiful Soup 4.2.0文档阅读笔记

环境:

macOS High Sierra version 10.13.2

Beautiful Soup 4.2.0 文档

安装Beautiful Soup

sudo easy_install beautifulsoup4

关于easy_install和pip

安装解析器

sudo easy_install lxml

检测是否安装成功

python

from bs4 import BeautifulSoup

技术分享图片
如上图,则安装成功!接着跟着Beautiful Soup 的用法敲一遍代码,熟悉BS的常用用法。
技术分享图片

如遇到问题参考python爬虫之Beautiful Soup的基本使用可以解决问题。

输出格式解读

<>标签

[]列表(list)

{}字典

注意

1

技术分享图片

注:macOS终端,print语句要有tab缩进,否则报错。

2

技术分享图片

注:macOS终端,严格按照代码格式,class = "sister"的等于号前后不能留有空格。

小试牛刀

爬一爬北京大学首页

技术分享图片

代码太多,这里只截取了部分。

找到所有的tag

技术分享图片

注:如果对Python语法熟悉,可以进一步提取有用信息。不妨爬一爬糗事百科,百度贴吧等。

结尾

BeautifulSoup是html源码的利器,当你从浩瀚的互联网爬取了海量数据,而急需提取特定的信息,它或许能提供帮助,节省时间。

PS:一入coding深似海,从此妹子是路人。

以上是关于Beautiful Soup 4.2.0文档阅读笔记的主要内容,如果未能解决你的问题,请参考以下文章

Beautiful Soup-4.2.0

爬虫-Beautiful Soup模块

Beautiful Soup

Beautiful Soup4库文档学习

beautiful soup的用法

20190221 beautiful soup 入门