python爬虫rp+bs4

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫rp+bs4相关的知识,希望对你有一定的参考价值。

soup = BeautifulSoup(html_doc)

soup 就是BeautifulSoup处理格式化后的字符串,soup.title 得到的是title标签,soup.p 得到的是文档中的第一个p标签,要想得到所有标签,得用find_all

函数。

find_all 函数返回的是一个序列,可以对它进行循环,依次得到想到的东西.

get_text() 是返回文本,这个对每一个BeautifulSoup处理后的对象得到的标签都是生效的。你可以试试 print soup.p.get_text()

其实是可以获得标签的其他属性的,比如我要获得a标签的href属性的值,可以使用 print soup.a[‘href‘],类似的其他属性,比如class也是可以这么得到的(soup.a[‘class‘])。

特别的,一些特殊的标签,比如head标签,是可以通过soup.head 得到,其实前面也已经说了。

以上是关于python爬虫rp+bs4的主要内容,如果未能解决你的问题,请参考以下文章

一日神技:最快30秒写出一个异步加载爬虫

Nginx支持反爬虫并限制客户端的请求的并发数

Python爬虫入门:爬虫基础了解

Python 爬虫的入门教程都有哪些值得推荐的?

python爬虫

求编程大佬 Python 爬虫