06 使用代理爬取搜狗微信文章
Posted copywang
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了06 使用代理爬取搜狗微信文章相关的知识,希望对你有一定的参考价值。
参考:静觅丨崔庆才的个人博客
项目地址:copywang/spiders_collection
实现功能
- 根据登陆后的cookie制作header,请求搜索微信文章
- url需要使用urlencode拼接
- 使用代理避免IP被封
- 使用pyquery解析得到需要的字段信息
- 爬取文章详情页并存储到MongoDB
步骤
- 制作cookie,拼接URL
- 获取每一页的html代码
- 从每一页的html代码解析得到具体文章的url
- 获取具体文章的url,解析得到需要的信息
收获
- 使用pyquery
- 使用代理IP
- 异常处理
以上是关于06 使用代理爬取搜狗微信文章的主要内容,如果未能解决你的问题,请参考以下文章