知乎回答多线程爬虫案例
Posted 刘润森!
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了知乎回答多线程爬虫案例相关的知识,希望对你有一定的参考价值。
知乎回答多线程爬虫
模式
-
单问题爬取模式
-
相似问题爬取模式
输出
文件名 问题题目
文件内容
- 问题
- 问题id
- 回答者昵称
- 回答者空间id
- 回答者id
- 回答者内容
单问题爬取模式
功能 主要通过用户提供的问题id,爬取单个问题下的所有回答
相似问题爬取模式
功能 通过用户提供的起始问题id,以及相关内容爬取数量,利用知乎的相关问题进行自动检索,并不断递归至用户提供的爬取数量(默认数量为20)。
bug 由于知乎具有一定的反爬,所以在相似问题检索时最大的检索量为400,如果到达500就会触发反爬机制,需要用户填写一个验证码才可以继续爬取。(也许未来有时间的话会把获取验证码的部分代码补全,但具体机器打码的实现还是太难了,所以还得自己手动输入验证码)
优点 简单,明了,使用requests库进行爬取,利用递归实现迭代检索,代码量不大。
缺点 功能较少,对线程的把握不够好,可能会出现数据少量缺失的情况。
技术栈:
以上是关于知乎回答多线程爬虫案例的主要内容,如果未能解决你的问题,请参考以下文章