python爬虫rp+bs4

Posted 2020-10-01

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬虫rp+bs4相关的知识，希望对你有一定的参考价值。

soup = BeautifulSoup(html_doc)

soup 就是BeautifulSoup处理格式化后的字符串，soup.title 得到的是title标签，soup.p 得到的是文档中的第一个p标签，要想得到所有标签，得用find_all

函数。

find_all 函数返回的是一个序列，可以对它进行循环，依次得到想到的东西.

get_text() 是返回文本,这个对每一个BeautifulSoup处理后的对象得到的标签都是生效的。你可以试试 print soup.p.get_text()

其实是可以获得标签的其他属性的，比如我要获得a标签的href属性的值，可以使用 print soup.a[‘href‘],类似的其他属性，比如class也是可以这么得到的（soup.a[‘class‘]）。

特别的，一些特殊的标签，比如head标签，是可以通过soup.head 得到，其实前面也已经说了。

以上是关于python爬虫rp+bs4的主要内容，如果未能解决你的问题，请参考以下文章