简单的爬去百度贴吧小爬虫讲解

Posted 2022-12-07 数据文字工作者

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了简单的爬去百度贴吧小爬虫讲解相关的知识，希望对你有一定的参考价值。

# -*- coding: utf-8 -*-
import urllib2, string

def baidu_tieba(url, begin_page, end_page):
for i in range(begin_page, end_page+1):
sName = string.zfill(i,5)+'.html'#返回一个六位数字的html文件，如：000001.html. 5为前面补足5个0
print '正在下载第'+ str(i) + '个网页，并将其存储为' + sName + '......'
f = open(sName,'w+') #以读写模式打开：http://www.cnblogs.com/dkblog/archive/2011/02/24/1980651.html
m = urllib2.urlopen(url + str(i)).read()
f.write(m)
f.close()

bdurl = str(raw_input(u'请输入贴吧地址，去掉pn=后面的数字：\\n'))
begin_page = int(raw_input(u'请输入开始的页数：\\n'))
end_page = int(raw_input(u'请输入终点的页数：\\n'))

baidu_tieba(bdurl, begin_page, end_page)

# 操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。

# 功能：下载对应页码内的所有页面并存储为 html 文件。

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10

Python中input和raw_input在命令行中读入文件地址的区别请参考：

http://blog.csdn.net/songyu0120/article/details/43488487

以上是关于简单的爬去百度贴吧小爬虫讲解的主要内容，如果未能解决你的问题，请参考以下文章