python之屏幕抓取

Posted Flameluo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python之屏幕抓取相关的知识,希望对你有一定的参考价值。

Tidy 和 HTML 解析

Beautiful Soup

 

  屏幕抓取:是通过程序下载网页并从中提取信息的过程。

  简单来见:下载数据并对其进行分析

  思路:可使用urllib来获取网页的HTML代码,再使用正则表达式从中提取信息。

  例如:假设要从python Job Board(http://python.org/jobs)提取招聘单位的名称和网站。

  通过查看该网站的源代码,可发现类似于下面的链接中找到名称和URL:

<a href="/jobs/1970/">Python Engineer</a>

  如下:简单的屏幕抓取程序

from urllib.request import urlopen
import re
p = re.compile(<a href="(/jobs/\d+)/">(.*?)</a>)
text = urlopen(http://python.org/jobs).read().decode()
for url,name in p.findall(text):
    print({}({}).format(name,url))

待补充~

以上是关于python之屏幕抓取的主要内容,如果未能解决你的问题,请参考以下文章

使用 python 抓取谷歌精选片段

屏幕抓取 Python 中基于 Javascript 的网页

python爬虫之Scrapy框架,基本介绍使用以及用框架下载图片案例

python爬虫之Scrapy框架,基本介绍使用以及用框架下载图片案例

python之爬虫

python爬虫之scrapy安装