知乎回答多线程爬虫案例

Posted 刘润森!

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了知乎回答多线程爬虫案例相关的知识,希望对你有一定的参考价值。

知乎回答多线程爬虫

模式

  1. 单问题爬取模式

  2. 相似问题爬取模式

输出

文件名 问题题目

文件内容

  1. 问题
  2. 问题id
  3. 回答者昵称
  4. 回答者空间id
  5. 回答者id
  6. 回答者内容

单问题爬取模式

功能 主要通过用户提供的问题id,爬取单个问题下的所有回答

相似问题爬取模式

功能 通过用户提供的起始问题id,以及相关内容爬取数量,利用知乎的相关问题进行自动检索,并不断递归至用户提供的爬取数量(默认数量为20)。

bug 由于知乎具有一定的反爬,所以在相似问题检索时最大的检索量为400,如果到达500就会触发反爬机制,需要用户填写一个验证码才可以继续爬取。(也许未来有时间的话会把获取验证码的部分代码补全,但具体机器打码的实现还是太难了,所以还得自己手动输入验证码)

优点 简单,明了,使用requests库进行爬取,利用递归实现迭代检索,代码量不大。

缺点 功能较少,对线程的把握不够好,可能会出现数据少量缺失的情况。

技术栈:

以上是关于知乎回答多线程爬虫案例的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫(十八)_多线程糗事百科案例

Python爬虫(十八)_多线程糗事百科案例

爬虫之多线程案例

Python爬虫案例演示:Python多线程多进程协程

Python多线程爬虫入门级案例,采集整站图片素材!

Python 爬虫多线程爬取