html 网页源码解析:bs4中BeautifulSoup

Posted whitemousev2-0

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了html 网页源码解析:bs4中BeautifulSoup相关的知识,希望对你有一定的参考价值。

from bs4 import BeautifulSoup

result=requests.request("get","http://www.baidu.com")
result.encoding="utf-8" 
print(result.text)         #获取源码
soup=BeautifulSoup(result.text,"html.parser")      #解析html对象,并赋值给soup


soup.title        #获取网页第一个标签为“title”内容
soup.title.string)     #获取第一个标签“title”的纯字符串内容
soup.prettify()      #获取html网页源码
soup.input["name"]    #获取网页第一个标签为“input”内name的属性
soup.input.name      #获取标签为input的名字,其实就是“input”
soup.input.attrs       #取网页第一个标签为“input”内所有属性
soup.input["name"]="test"      #修改标签内的属性
del soup.input["name"]         #删除标签内的属性
soup.input["name2"]="wq123"     #新增标签内的属性
soup.head.contents      #获取标签为head的内容
list(soup.head.children)      #获取标签为head的内容,与上面一致
list(soup.head.descendants)      #获取标签为head的内容(前面与上面一致,加上-1位号为title内容)
soup.head.parent       #获取标签为head父节点所有内容
soup.head.parent.parent     #获取标签为head父节点的父节点所有内容
soup.head.next_sibling       #获取标签head同级下一个兄弟节点
soup.head.previous_sibling      #获取标签head同级上一个兄弟节点
list(soup.head.next_siblings)      #获取标签head同级下一个兄弟节点存储为生成器
list(soup.head.previous_siblings)      #获取标签head同级上一个兄弟节点存储为生成器
soup.find_all("a",class_="js_a_so")        #获取标签为a,class属性为"js_a_so"的所有标签对象  

 

以上是关于html 网页源码解析:bs4中BeautifulSoup的主要内容,如果未能解决你的问题,请参考以下文章

python3解析库Beautiful Soup的安装教程详解

python3解析库Beautiful Soup的安装教程详解

python3解析库Beautiful Soup的安装教程详解

2017.08.11 Python网络爬虫实战之Beautiful Soup爬虫

[Python3网络爬虫开发实战] 1.3.2-Beautiful Soup的安装

爬虫之数据解析,网页源码数据分析