知乎回答多线程爬虫案例

Posted 2021-06-13 刘润森！

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了知乎回答多线程爬虫案例相关的知识，希望对你有一定的参考价值。

模式

输出

文件名 问题题目

文件内容

单问题爬取模式

功能主要通过用户提供的问题id，爬取单个问题下的所有回答

相似问题爬取模式

功能通过用户提供的起始问题id，以及相关内容爬取数量，利用知乎的相关问题进行自动检索，并不断递归至用户提供的爬取数量（默认数量为20）。

bug 由于知乎具有一定的反爬，所以在相似问题检索时最大的检索量为400，如果到达500就会触发反爬机制，需要用户填写一个验证码才可以继续爬取。（也许未来有时间的话会把获取验证码的部分代码补全，但具体机器打码的实现还是太难了，所以还得自己手动输入验证码）

优点简单，明了，使用requests库进行爬取，利用递归实现迭代检索，代码量不大。

缺点功能较少，对线程的把握不够好，可能会出现数据少量缺失的情况。

技术栈：

以上是关于知乎回答多线程爬虫案例的主要内容，如果未能解决你的问题，请参考以下文章