如何使用python解析包含CSS和HTML的网页

Posted

技术标签:

【中文标题】如何使用python解析包含CSS和HTML的网页【英文标题】:How to parse a web page containing CSS and HTML using python 【发布时间】:2013-07-01 18:43:47 【问题描述】:

我正在尝试从包含 CSS 和 html 的网页中解析和提取一些信息。我为此使用 cssutils 和 beatifulsoup。假设我想找出用于表格标题的字体大小。 Beautifulsoup 告诉我表格定义在 HTML 中的位置。但是,如果我想知道表格中使用了哪种样式,我是否可以从 BeatifulSoup 获得该信息?如果不是,我该如何解决这个问题。谢谢你的帮助。

【问题讨论】:

你能给出示例代码吗? 【参考方案1】:

是的,你明白了。 BeautifulSoup 是完美的选择,正则表达式的强大功能:)

例子:

import re
from BeautifulSoup import BeautifulSoup


soup = BeautifulSoup('<h1 style="font-size: 12px; margin: 5px">Test</h>')
style = soup.find('h1')['style']
re.findall('font-size[^;]+', style)
# [u'font-size: 12px']

【讨论】:

以上是关于如何使用python解析包含CSS和HTML的网页的主要内容,如果未能解决你的问题,请参考以下文章

Python_爬虫_BeautifulSoup网页解析库

接着上次的python爬虫,今天进阶一哈,局部解析爬取网页数据

DHTML 动态HTML 包含HTML CSS JavaScript dom

python爬虫如何定位

Python中的HTMLParsercookielib抓取和解析网页从HTML文档中提取链接图像文本Cookies

爬虫网页解析之css用法及实战爬取中国校花网