python之屏幕抓取
Posted Flameluo
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python之屏幕抓取相关的知识,希望对你有一定的参考价值。
Tidy 和 HTML 解析
Beautiful Soup
屏幕抓取:是通过程序下载网页并从中提取信息的过程。
简单来见:下载数据并对其进行分析
思路:可使用urllib来获取网页的HTML代码,再使用正则表达式从中提取信息。
例如:假设要从python Job Board(http://python.org/jobs)提取招聘单位的名称和网站。
通过查看该网站的源代码,可发现类似于下面的链接中找到名称和URL:
<a href="/jobs/1970/">Python Engineer</a>
如下:简单的屏幕抓取程序
from urllib.request import urlopen import re p = re.compile(‘<a href="(/jobs/\d+)/">(.*?)</a>‘) text = urlopen(‘http://python.org/jobs‘).read().decode() for url,name in p.findall(text): print(‘{}({})‘.format(name,url))
待补充~
以上是关于python之屏幕抓取的主要内容,如果未能解决你的问题,请参考以下文章
屏幕抓取 Python 中基于 Javascript 的网页
python爬虫之Scrapy框架,基本介绍使用以及用框架下载图片案例