python面试题——爬虫相关

Posted 2021-01-25 xiugeng

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python面试题——爬虫相关相关的知识，希望对你有一定的参考价值。

1、接触过几种爬虫模块

　　urllib、requests这两种爬虫模块。

2、robots协议是什么？

　　它就是一个防君子不防小人的协议，网站有一些数据不想被爬虫程序爬取，可以编写robots协议文件，明确指明哪些内容可以爬取哪些不可以爬取。
　　requests模块中并没有使用硬性的语法对该协议进行生效操作。
　　在Scrapy框架中在settings.py文件中使用了硬性语法对该协议进行了生效。

3、如何处理验证码？

　　使用三方的打码平台比如：云打码平台、打码兔。可以用来处理验证码。

4、掌握几种数据解析的方式？

　　re、xpath(最常用)、bs4(python独有)

5、如何爬取动态加载的页面数据？

　　selenium； ajax：抓包工具抓取异步发起的请求(url)

6、接触过哪些反爬机制？如何处理？

　　robots协议、UA、封IP、验证码、动态数据加载、数据加密、token
　　处理：配置不遵守robots协议、伪装User-Agent、代理IP更换、打码平台对验证码识别、selenium处理或者使用抓包工具去抓取动态加载的AJAX请求数据包、按照已知的各种加密方式进行解密、去前台页面进行token值的查找手动放入请求携带的参数中。