06 使用代理爬取搜狗微信文章

Posted copywang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了06 使用代理爬取搜狗微信文章相关的知识,希望对你有一定的参考价值。

参考:静觅丨崔庆才的个人博客

 

项目地址:copywang/spiders_collection

 

实现功能

  1. 根据登陆后的cookie制作header,请求搜索微信文章
  2. url需要使用urlencode拼接
  3. 使用代理避免IP被封
  4. 使用pyquery解析得到需要的字段信息
  5. 爬取文章详情页并存储到MongoDB

步骤

  1. 制作cookie,拼接URL
  2. 获取每一页的html代码
  3. 从每一页的html代码解析得到具体文章的url
  4. 获取具体文章的url,解析得到需要的信息

收获

  1. 使用pyquery
  2. 使用代理IP
  3. 异常处理

以上是关于06 使用代理爬取搜狗微信文章的主要内容,如果未能解决你的问题,请参考以下文章

python实现搜狗微信公众号数据爬取

微信公众号的文章爬取有三种方式

java 爬取微信公众号文章 - 搜狗微信搜索

如何抓取微信所有公众号最新文章

九 web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解

Python 爬虫爬取微信文章