第一个爬虫练习微信公众号。

Posted 2020-10-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第一个爬虫练习微信公众号。相关的知识，希望对你有一定的参考价值。

1.环境准备

环境 Python 3 编辑器 pycharm
谷歌驱动 chromedriver.exe
微信公众号没有的需要注册一个
爬取内容微信公众号所有文章url和文章标题

1.首先登录微信公众号 selenium
通过selenium驱动浏览器打开登录页面输入账号密码登录获取cookies 保存

2.拿到cookies之后去请求首先会直接跳转到个人首页这个时候到的url 是会有token的
构造我们的data数据包模拟post请求返回数据

3.拿到数据之后解析出我们需要的数据

4.翻页两种一种是直接改变url的值 get
一种是url不变发送的data数据变 post

5.所涉及到的主要模块有 selenium time json requests re random

2.编写代码

Login.py

1 # -*- coding:utf-8 -*- 2 3 # Author: benjaminYang 4 from slenium import webdriver 5 6 import time 7 8 import json 9 10 driver=webdriver.Chrome() #需要一个谷歌驱动 11 12 driver.get(“http://mp.weixin.qq.com”) #所要驱动操作的页面url 13 14 15 16 driver.find_element_by_xpath(\'//*[@id="header"]/div[2]/div/div/form/div[1]/div[1]/div/span/input\').clear() #获取用户名输入框的xpath并清空 17 driver.find_element_by_xpath(\'//*[@id="header"]/div[2]/div/div/form/div[1]/div[1]/div/span/input\').send_keys(\'你自己的公众号用户名\') #自动填写用户名 18 time.sleep(2) 19 20 21 22 driver.find_element_by_xpath(\'//*[@id="header"]/div[2]/div/div/form/div[1]/div[2]/div/span/input\').clear() #获取密码输入框的xpath并清空 23 24 driver.find_element_by_xpath(\'//*[@id="header"]/div[2]/div/div/form/div[1]/div[2]/div/span/input\').send_keys(\'你的密码\') #自动输入密码 25 26 time.sleep(2) 27 28 driver.find_element_by_xpath(\'//*[@id="header"]/div[2]/div/div/form/div[3]/label\').click() #获取记住账号label的xpath并勾选 29 30 time.sleep(2) driver.find_element_by_xpath(\'//*[@id="header"]/div[2]/div/div/form/div[4]/a\').click() 31 #获取登录div的xpath 并点击 32 33 time.sleep(15) 34 35 cookies=driver.get_cookies() #获取登录之后的cookies 36 37 cookie={} 38 from items in cookies: 39 cookie[items.get(‘name’)]=items.get(‘value’) #将获取到的cookies 存入到cookie字典里 40 with open(‘cookies.txt’,’w’) as file: 41 file.wrie(json.dumps(cookie) #dict转化成str 存入txt文件中 42 driver.close()

生成的文件cookies.txt格式如下：

示例图如下

weixin.py

#!/usr/bin/env python # -*- coding:utf-8 -*- # Author: benjaminYang Import request Import json Import re Import random Import time def main(query): with open(‘cookies.txt’) as file: cookie=file.read() #读取cookies文件内容 url=\'https://mp.weixin.qq.com/\' headers={\'User-Agent\':\'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (K html, like Gecko) Chrome/62.0.3202.94 Safari/537.36\' ,\'Referer\':\'https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&share=1&type=10&lang=zh_CN&token=1988933146\' ,\'Host\':\'mp.weixin.qq.com\', } #设置请求头部 User-Agent, Referer, Host cookies=json.loads(cookie) #str转成dict response=requests.get(url,cookies=cookies) token=re.findall(‘token=(\\d+)’,str(response,url))[0] #获取url中的token data={ \'token\':token, \'lang\':\'zh_CN\', \'f\': \'json\', \'ajax\':\'1\', #使用ajax异步 \'random\':random.random(), #生成随机数 \'url\':query, #搜索的文章类型 \'begin\':\'0\', #从第一个文章开始 \'count\':\'3\', #每页文章数目 } search_url=\'https://mp.weixin.qq.com/cgi-bin/operate_appmsg?sub=check_appmsg_copyright_sta\' search_response=requests.post(search_url,cookies=cookies,data=data,headers=headers) max_num=search_reponse.json().get(‘total’)# 获取所有文章的条数 num=int(int(max_num/3) #文章的总页数，一页3篇除最后一页 begin=0 while num+1>0; data={ \'token\': token, \'lang\': \'zh_CN\', \'f\': \'json\', \'ajax\': \'1\', \'random\': random.random(), \'url\': query, \'begin\': \'{}\'.format(str(begin)), \'count\': \'3\', } search_response = requests.post(search_url, cookies=cookies, data=data, headers=headers) content=search_response.json().get(\'list\') for items in content: print (items.get(\'title\'))#标题 print (items.get(\'url\')) #文章的url print (items.get(\'nickname\')) num -=1 #每循环一次总页数减一 begin=int(begin) begin+=3 #每循环一次文章数加3 time.sleep(5) if __name__==’__main__’: query=input(‘请输入你要搜索的文章：’) main(query)

3.效果图

以上是关于第一个爬虫练习微信公众号。的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫实战微信公众号爬虫：微信公众号浏览自动化

微信公众号文章的爬虫系统

python爬虫（18）爬取微信公众号内容——绘制词云

（转）手把手教你自制微信公众号流量监控系统

23个Python爬虫开源项目代码

[Python爬虫] 之十五：Selenium +phantomjs根据微信公众号抓取微信文章

第一个爬虫练习 微信公众号。

1.环境准备

2.编写代码

Login.py

weixin.py

3.效果图

第一个爬虫练习微信公众号。