简单的爬虫demo

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简单的爬虫demo相关的知识,希望对你有一定的参考价值。

# coding=<encoding name> 例如,可添加# coding=utf-8
import urllib
import re
# 定义一个方法,把整个页面下载下来
def gethtml(url):
    page = urllib.urlopen(url)   # 打开网页
    html = page.read()             #读取 URL上面的数据
    return html                  # 返回内容

# 再定义一个方法,筛选页面中想要的元素,通过正则表达式的匹配
def getimage(html):
    reg = rsrc="(.+?\\.jpg)" pic_ext   # 定义一个正则表达式
    # re.compile() 把正则表达式编译成一个正则表达式对象
    imagere =re.compile(reg)
    #  re.findall() 方法读取html 中包含 imgre(正则表达式)的数据。
    imagerelist = re.findall(imagere,html)
    # 遍历图片
    x = 0
    for imageurl in imagerelist:
        # 这里的核心是用到了urllib.urlretrieve(),方法,直接将远程数据下载到本地
        urllib.urlretrieve(imageurl,%s.jpg% x)
        x= x+1


# 调用getHtml 传入一个网址
ht = getHtml("http://tieba.baidu.com/p/2460150866")
# 调用getimage ,拿到图片
print getimage(ht)

运行的效果

技术分享

 

以上是关于简单的爬虫demo的主要内容,如果未能解决你的问题,请参考以下文章

单机爬虫简单demo

scrapy按顺序启动多个爬虫代码片段(python3)

scrapy主动退出爬虫的代码片段(python3)

Python爬虫之Scrapy框架系列——创建并运行你的第一个Scrapy demo项目

Python爬虫之Scrapy框架系列——创建并运行你的第一个Scrapy demo项目

使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO