Python库-BeautifulSoup
Posted 阳离子
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python库-BeautifulSoup相关的知识,希望对你有一定的参考价值。
sp = BeautifulSoup.bs4.BeautifulSoup(html.text,"html.parser")
方法
1.sp.title
返回网页标题
2.sp.text
返回去除所有HTML标签后的网页内容
3.sp.find(name=None, attrs={}, recursive=True, text=None, **kwargs)
该函数返回值为字符串
第一个参数是标签名字,第二个是个网页属性的字典,例如:
<a href = "http://www.baidu.com" class = "sister" id = "link1">Elsie</a> sp.find("a",{"id":"link1"}) sp.find("a",{"href":"http://www.baidu.com"})
4.sp.find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)
第一个参数可以是多个标签名字构成的列表,例如:
sp.find([‘a‘,‘b‘],{"id":"link1"})
5.sp.select(selector, _candidate_generator=None, limit=None)
该函数返回值为列表
第一个参数可以是控件id值,要在引号之内加入#,例如:
t = m.select("#userAccount") # 输出 [<input id="userAccount" style="position:absolute; top:7px;" type="text" value=""/>]
第一个参数也可以是css类名,例如:
<p class ="title"><b>文件标题</b></p> datal = sp.select(".title")
6.get(属性名称)
<a href = "http://www.baidu.com" class = "sister" id = "link1">Elsie</a> datal = sp.find("a",{"id":"link1"}) print(datal.get("href")) # 输出 http://www.baidu.com
以上是关于Python库-BeautifulSoup的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫:想听榜单歌曲?使用BeautifulSoup库只需要14行代码即可搞定