BeautifulSoup解析

Posted wanglinjie

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了BeautifulSoup解析相关的知识,希望对你有一定的参考价值。

正文的抽取

import json
from bs4 import BeautifulSoup
import requests
user_agent = Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)
headers={User-Agent:user_agent}
r = requests.get(http://seputu.com/,headers=headers)
soup = BeautifulSoup(r.text,html.parser,from_encoding=utf-8)
content=[]
for mulu in soup.find_all(class_="mulu"):
    h2 = mulu.find(h2)
    if h2!=None:
        h2_title = h2.string#获取标题
        list=[]
        for a in mulu.find(class_=box).find_all(a):#获取所有的a标签中url和章节内容
            href = a.get(href)
            box_title = a.get(title)
            list.append({href:href,box_title:box_title})
        content.append({title:h2_title,content:list})
with open(result.json,w) as fp:
    json.dump(content,fp=fp,indent=4)

 

以上是关于BeautifulSoup解析的主要内容,如果未能解决你的问题,请参考以下文章

Python - BeautifulSoup - 如何进行在线数据解析

解析库BeautifulSoup使用

使用 BeautifulSoup 解析 facebook

Python3.x的BeautifulSoup解析html常用函数

BeautifulSoup HTML 表格解析

将 BeautifulSoup 元素解析为 Selenium