爬上不得姐
Posted 贺呵呵
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬上不得姐相关的知识,希望对你有一定的参考价值。
#可以优化一下 前10页 每页点赞最多的段子
# -*- coding: utf-8 -*-
import urllib,urllib2
import sys,re
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
for h in range(1,10):
cc = []
tt = []
try:
url = ‘http://www.budejie.com/text/‘+str(h)
res = urllib.urlopen(url).read()
#print res
m = re.compile(‘<div class="j-r-list-c-desc">(.*?)</div>.*?<i class="icon-up ui-icon-up"></i> <span>(.*?)</span>‘,re.S) #当前版本可以这样匹配 没有匹配作者
tt = re.findall(m,res)
for i in tt:
cc.append(i[1]) #把每个段子点赞的数量放入list
aa = cc
for b in range(len(aa) - 1): #排序
for i in range(len(aa) - 1):
if aa[i] < aa[i + 1]:
aa[i], aa[i + 1] = aa[i + 1], aa[i]
for t in range(5): #取每页前5条段子
index = cc.index(aa[t])
print tt[index][0].replace("<br />","")
print tt[index][1]
except Exception,e:
print e
以上是关于爬上不得姐的主要内容,如果未能解决你的问题,请参考以下文章