简单的爬去百度贴吧小爬虫讲解

Posted 数据文字工作者

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简单的爬去百度贴吧小爬虫讲解相关的知识,希望对你有一定的参考价值。

# -*- coding: utf-8 -*-
import urllib2, string


def baidu_tieba(url, begin_page, end_page):
    for i in range(begin_page, end_page+1):
        sName = string.zfill(i,5)+'.html'#返回一个六位数字的html文件,如:000001.html. 5为前面补足5个0
        print '正在下载第'+ str(i) + '个网页,并将其存储为' + sName + '......'
        f = open(sName,'w+') #以读写模式打开:http://www.cnblogs.com/dkblog/archive/2011/02/24/1980651.html
        m = urllib2.urlopen(url + str(i)).read()
        f.write(m)
        f.close()


bdurl = str(raw_input(u'请输入贴吧地址,去掉pn=后面的数字:\\n'))
begin_page = int(raw_input(u'请输入开始的页数:\\n'))
end_page = int(raw_input(u'请输入终点的页数:\\n'))


baidu_tieba(bdurl, begin_page, end_page)


#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。  

#    功能:下载对应页码内的所有页面并存储为 html 文件。

 #bdurl = 'http://tieba.baidu.com/p/2296017831?pn='  

#iPostBegin = 1  

#iPostEnd = 10 


 

Python中input和raw_input在命令行中读入文件地址的区别请参考:


http://blog.csdn.net/songyu0120/article/details/43488487


以上是关于简单的爬去百度贴吧小爬虫讲解的主要内容,如果未能解决你的问题,请参考以下文章

爬虫到百度贴吧,爬去自己的小说

Python网络爬虫与信息提取-Requests库网络爬去实战

编程实践认识爬虫并手把手带手实现新闻网站的爬取

python简单爬去油价信息发送到公众号

Python 爬虫

爬虫实战:爬虫之 web 自动化终极杀手 ( 上)