python爬虫(按贴吧和帖子主题关键词筛选帖子的URL)
Posted huanu
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫(按贴吧和帖子主题关键词筛选帖子的URL)相关的知识,希望对你有一定的参考价值。
python爬虫(按贴吧和帖子主题关键词筛选帖子的URL)
1 #!/usr/bin/env python 2 # -*- coding :utf-8 -*- 3 import urllib.request 4 from urllib.request import urlopen 5 from bs4 import BeautifulSoup 6 7 8 def writeAl(all_nr_print): 9 with open(‘%s.txt‘ % kw2, ‘a‘) as f: 10 f.write(all_nr_print+" ") 11 12 13 def all_nr(full_url): 14 html = urlopen(full_url) 15 bsObj = BeautifulSoup(html, ‘html.parser‘) 16 t1 = bsObj.find_all(‘a‘) 17 for t2 in t1: 18 t3 = str(t2.get(‘href‘)) 19 t31 = str(t2.get(‘title‘)) 20 if len(t3) == 13: 21 if kw2 in t31: 22 all_nr_print = t31 + " " + str(kw2_url) + str(t3) 23 print(all_nr_print) 24 writeAl(all_nr_print) 25 26 27 def tiebaSpider(kw_url, beginPage, endPage): 28 for page in range(beginPage, endPage + 1): 29 pn = (page - 1) * 50 30 full_url = kw_url + "&pn=" + str(pn) 31 print(" %s"% full_url) 32 all_nr(full_url) 33 # writeAl(full_url) 34 35 36 if __name__ == ‘__main__‘: 37 kw = input(‘请输入贴吧名:‘) 38 beginPage = int(input("请输入起始页:")) 39 endPage = int(input("请输入结束页:")) 40 kw2 = input(‘请输入帖子主题的"关键词":‘) 41 kw_url = "http://tieba.baidu.com/f?" 42 kw2_url = "http://tieba.baidu.com" 43 kw_key = urllib.parse.urlencode({"kw": kw}) 44 full_url = kw_url + kw_key 45 tiebaSpider(full_url, beginPage, endPage)
结果展示
【招募】全年龄广播剧《儿童列车》招募CV http://tieba.baidu.com/p/5962267374 【招募】全一期原创恐怖灵异广播剧《白衣成血》招募sc啦! http://tieba.baidu.com/p/5976285465 【招募】不停与笙社团招新 http://tieba.baidu.com/p/5976567325 分享:【招募】招募后期学徒 http://tieba.baidu.com/p/5977220335 分享:【招募】有偿 http://tieba.baidu.com/p/5977187731 【招募】你猜哪个工作组招募各工种 http://tieba.baidu.com/p/5960617052 【招募】听弦小筑团队招人啦~~~ http://tieba.baidu.com/p/5954552471 【招募】广播剧《狼毫轶事录》求剧后 http://tieba.baidu.com/p/5977050477 【招募】一位无偿画师 《重生之恶少》广播剧第二期 春溪笛晓原著 http://tieba.baidu.com/p/5974780587 【招募】绘音配音2018双十一特别招募开始啦! http://tieba.baidu.com/p/5946805942 【招募】全一期古风BG广播剧《长歌诀》招募CV,美工 http://tieba.baidu.com/p/5971507781 【招募】全两期科幻耽美广播剧《机器》招募sc啦! http://tieba.baidu.com/p/5973981263 【招募】大型神话广播剧《复遁》招募cv 诛神灭 http://tieba.baidu.com/p/5951882277 【招募】现代架空全一期原创耽美广播剧《魔窟的爱情轮回》招募cv http://tieba.baidu.com/p/5944614573 【招募】现代微悬疑全一期原创bg广播剧《镜面》招募cv http://tieba.baidu.com/p/5962239680 【招募】原创短剧 全一期 现代全年龄 广播剧《相遇》CV招募 http://tieba.baidu.com/p/5953852568 【招募】全一期亲情广播剧《相遇》继续招募CV http://tieba.baidu.com/p/5958363399 【招募】全年龄原创短剧《相遇》 http://tieba.baidu.com/p/5960516165 【招募】音玖广播剧社团招募 http://tieba.baidu.com/p/5422417242 【招募】叮咚~您有一份待签收的邀请函~ http://tieba.baidu.com/p/5972716719 【招募】这里一个萌系短文,招个改编编剧,要求两周内交,扣扣三 http://tieba.baidu.com/p/5976770373 【招募】全一期现代BG广播剧《星辰似你》招募cv http://tieba.baidu.com/p/5949823490 【招募】平声欢社团招新啦! http://tieba.baidu.com/p/5972804085 【招募】绿叶ACG动漫配音社团招新了! http://tieba.baidu.com/p/5709436979 【招募】三号广播剧社2018年招新~~来看看这个沉寂了两年的社团吧 http://tieba.baidu.com/p/5739440029 【招募】招募编剧,歌基,CV http://tieba.baidu.com/p/5973923547 【招募】「韵寥幽音原创团队」五周年团队招新啦~~~ http://tieba.baidu.com/p/5959834856 【招募】广播剧,求一萝莉音 http://tieba.baidu.com/p/5961227120 【招募】纯男音微时配音社年末招新(长期) http://tieba.baidu.com/p/5961400299 【招募】夜雨声繁广播剧社招新第六弹 http://tieba.baidu.com/p/5886257950 【招募】《因为风就在那里》剧组招募CV http://tieba.baidu.com/p/5905474046 【耽美广播剧cv龙套招募】全一期现代耽美广播剧《有何不可》 http://tieba.baidu.com/p/5968767308 【招募】708工作室招新~欢迎大可爱小可爱们加入 http://tieba.baidu.com/p/5970854197 【招募】现代写实向广播剧《沉默》招募cv啦 http://tieba.baidu.com/p/5972644325 【招募】流连声色广播剧社招新 http://tieba.baidu.com/p/5513767446 【招募】陌熏熏工作组出品,全12期原创虐心系列之《半生戏》, http://tieba.baidu.com/p/5919689319 【招募】有声小说招募一批主播 http://tieba.baidu.com/p/5869491333 【招募】现代耽美广播剧《天生敌对》下期招募CV请各位踊跃试音! http://tieba.baidu.com/p/5572391112 【招募】声御轩广播剧社持续招新中 http://tieba.baidu.com/p/5962547207 [招募]工作室招志同道合伙伴 http://tieba.baidu.com/p/5950106274
以上是关于python爬虫(按贴吧和帖子主题关键词筛选帖子的URL)的主要内容,如果未能解决你的问题,请参考以下文章