python爬虫(按贴吧和帖子主题关键词筛选帖子的URL)

Posted huanu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫(按贴吧和帖子主题关键词筛选帖子的URL)相关的知识,希望对你有一定的参考价值。

python爬虫(按贴吧和帖子主题关键词筛选帖子的URL)

 1 #!/usr/bin/env python
 2 # -*- coding :utf-8 -*-
 3 import urllib.request
 4 from urllib.request import urlopen
 5 from bs4 import BeautifulSoup
 6 
 7 
 8 def writeAl(all_nr_print):
 9     with open(%s.txt % kw2, a) as f:
10         f.write(all_nr_print+"
")
11 
12 
13 def all_nr(full_url):
14     html = urlopen(full_url)
15     bsObj = BeautifulSoup(html, html.parser)
16     t1 = bsObj.find_all(a)
17     for t2 in t1:
18         t3 = str(t2.get(href))
19         t31 = str(t2.get(title))
20         if len(t3) == 13:
21             if kw2 in t31:
22                 all_nr_print = t31 + " " + str(kw2_url) + str(t3)
23                 print(all_nr_print)
24                 writeAl(all_nr_print)
25 
26 
27 def tiebaSpider(kw_url, beginPage, endPage):
28     for page in range(beginPage, endPage + 1):
29         pn = (page - 1) * 50
30         full_url = kw_url + "&pn=" + str(pn)
31         print("
%s"% full_url)
32         all_nr(full_url)
33         # writeAl(full_url)
34 
35 
36 if __name__ == __main__:
37     kw = input(请输入贴吧名:)
38     beginPage = int(input("请输入起始页:"))
39     endPage = int(input("请输入结束页:"))
40     kw2 = input(请输入帖子主题的"关键词":)
41     kw_url = "http://tieba.baidu.com/f?"
42     kw2_url = "http://tieba.baidu.com"
43     kw_key = urllib.parse.urlencode({"kw": kw})
44     full_url = kw_url + kw_key
45     tiebaSpider(full_url, beginPage, endPage)

结果展示

技术分享图片

技术分享图片
【招募】全年龄广播剧《儿童列车》招募CV http://tieba.baidu.com/p/5962267374
【招募】全一期原创恐怖灵异广播剧《白衣成血》招募sc啦! http://tieba.baidu.com/p/5976285465
【招募】不停与笙社团招新 http://tieba.baidu.com/p/5976567325
分享:【招募】招募后期学徒 http://tieba.baidu.com/p/5977220335
分享:【招募】有偿 http://tieba.baidu.com/p/5977187731
【招募】你猜哪个工作组招募各工种 http://tieba.baidu.com/p/5960617052
【招募】听弦小筑团队招人啦~~~ http://tieba.baidu.com/p/5954552471
【招募】广播剧《狼毫轶事录》求剧后 http://tieba.baidu.com/p/5977050477
【招募】一位无偿画师 《重生之恶少》广播剧第二期 春溪笛晓原著 http://tieba.baidu.com/p/5974780587
【招募】绘音配音2018双十一特别招募开始啦! http://tieba.baidu.com/p/5946805942
【招募】全一期古风BG广播剧《长歌诀》招募CV,美工 http://tieba.baidu.com/p/5971507781
【招募】全两期科幻耽美广播剧《机器》招募sc啦! http://tieba.baidu.com/p/5973981263
【招募】大型神话广播剧《复遁》招募cv        诛神灭 http://tieba.baidu.com/p/5951882277
【招募】现代架空全一期原创耽美广播剧《魔窟的爱情轮回》招募cv http://tieba.baidu.com/p/5944614573
【招募】现代微悬疑全一期原创bg广播剧《镜面》招募cv http://tieba.baidu.com/p/5962239680
【招募】原创短剧 全一期 现代全年龄 广播剧《相遇》CV招募 http://tieba.baidu.com/p/5953852568
【招募】全一期亲情广播剧《相遇》继续招募CV http://tieba.baidu.com/p/5958363399
【招募】全年龄原创短剧《相遇》 http://tieba.baidu.com/p/5960516165
【招募】音玖广播剧社团招募 http://tieba.baidu.com/p/5422417242
【招募】叮咚~您有一份待签收的邀请函~ http://tieba.baidu.com/p/5972716719
【招募】这里一个萌系短文,招个改编编剧,要求两周内交,扣扣三 http://tieba.baidu.com/p/5976770373
【招募】全一期现代BG广播剧《星辰似你》招募cv http://tieba.baidu.com/p/5949823490
【招募】平声欢社团招新啦! http://tieba.baidu.com/p/5972804085
【招募】绿叶ACG动漫配音社团招新了! http://tieba.baidu.com/p/5709436979
【招募】三号广播剧社2018年招新~~来看看这个沉寂了两年的社团吧 http://tieba.baidu.com/p/5739440029
【招募】招募编剧,歌基,CV http://tieba.baidu.com/p/5973923547
【招募】「韵寥幽音原创团队」五周年团队招新啦~~~ http://tieba.baidu.com/p/5959834856
【招募】广播剧,求一萝莉音 http://tieba.baidu.com/p/5961227120
【招募】纯男音微时配音社年末招新(长期) http://tieba.baidu.com/p/5961400299
【招募】夜雨声繁广播剧社招新第六弹 http://tieba.baidu.com/p/5886257950
【招募】《因为风就在那里》剧组招募CV http://tieba.baidu.com/p/5905474046
【耽美广播剧cv龙套招募】全一期现代耽美广播剧《有何不可》 http://tieba.baidu.com/p/5968767308
【招募】708工作室招新~欢迎大可爱小可爱们加入 http://tieba.baidu.com/p/5970854197
【招募】现代写实向广播剧《沉默》招募cv啦 http://tieba.baidu.com/p/5972644325
【招募】流连声色广播剧社招新 http://tieba.baidu.com/p/5513767446
【招募】陌熏熏工作组出品,全12期原创虐心系列之《半生戏》, http://tieba.baidu.com/p/5919689319
【招募】有声小说招募一批主播 http://tieba.baidu.com/p/5869491333
【招募】现代耽美广播剧《天生敌对》下期招募CV请各位踊跃试音! http://tieba.baidu.com/p/5572391112
【招募】声御轩广播剧社持续招新中 http://tieba.baidu.com/p/5962547207
[招募]工作室招志同道合伙伴 http://tieba.baidu.com/p/5950106274
结果展示 招募.txt

 

以上是关于python爬虫(按贴吧和帖子主题关键词筛选帖子的URL)的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫——抓取贴吧帖子

Python爬虫实例爬取百度贴吧帖子中的图片

Python爬虫爬取百度贴吧的帖子

Python爬虫实战二之爬取百度贴吧帖子

转 Python爬虫实战二之爬取百度贴吧帖子

Python爬虫-爬取百度贴吧帖子