Python库-BeautifulSoup

Posted 阳离子

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python库-BeautifulSoup相关的知识,希望对你有一定的参考价值。

sp = BeautifulSoup.bs4.BeautifulSoup(html.text,"html.parser")

方法

1.sp.title

返回网页标题

2.sp.text

返回去除所有HTML标签后的网页内容

3.sp.find(name=None, attrs={}, recursive=True, text=None, **kwargs)

该函数返回值为字符串

第一个参数是标签名字,第二个是个网页属性的字典,例如:

<a href = "http://www.baidu.com"
class = "sister" id = "link1">Elsie</a>
sp.find("a",{"id":"link1"})
sp.find("a",{"href":"http://www.baidu.com"})

4.sp.find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

第一个参数可以是多个标签名字构成的列表,例如:

sp.find([a,b],{"id":"link1"})

5.sp.select(selector, _candidate_generator=None, limit=None)

该函数返回值为列表

第一个参数可以是控件id值,要在引号之内加入#,例如:

t = m.select("#userAccount")
# 输出 [<input id="userAccount" style="position:absolute; top:7px;" type="text" value=""/>]

第一个参数也可以是css类名,例如:

<p class ="title"><b>文件标题</b></p>
datal = sp.select(".title")

6.get(属性名称)

<a href = "http://www.baidu.com"
class = "sister" id = "link1">Elsie</a>
datal = sp.find("a",{"id":"link1"})
print(datal.get("href"))
# 输出 http://www.baidu.com

 

以上是关于Python库-BeautifulSoup的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫(十九)BeautifulSoup4库

Python爬虫:想听榜单歌曲?使用BeautifulSoup库只需要14行代码即可搞定

Python爬虫:想听榜单歌曲?使用BeautifulSoup库只需要14行代码即可搞定

解析库BeautifulSoup使用

四 . 爬虫 BeautifulSoup库参数和使用

Python 爬虫-BeautifulSoup