爬虫基本知识

Posted quietly-elegant

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫基本知识相关的知识,希望对你有一定的参考价值。

一、基础

1)反爬:useragent/cookie/代理ip/js生成/需要登陆/refer/
2)url得到方式:network/search
3)提取方式:正则/xpath/bs4/josn/jsonpath/css
4)验证码处理:手动/打码平台/tesseract识别
5)数据去重:数据库分组去重/set去重/管道去重/url去重
6)加密方式:md5/sha1

7)request和response的区别:

    request是服务器对浏览器请求封装,

    response是服务器对服务器响应封装。

8)响应码:200正常访问/300重定向/400客户端错误/500服务器错误
9)OCR光学文字识别, tesseract模块
10)redis数据类型:集合/字符串/列表/哈希(hash)/有序集合(zset)

11)GET和POST区别

  GET在浏览器回退时是无害的,而POST会再次提交请求。
  GET产生的URL地址可以被Bookmark,而POST不可以。
  GET请求会被浏览器主动cache,而POST不会,除非手动设置。
  GET请求只能进行url编码,而POST支持多种编码方式。
  GET请求参数会被完整保留在浏览器历史记录里,而POST中的参数不会被保留。
  GET请求在URL中传送的参数是有长度限制的,而POST么有。
  对参数的数据类型,GET只接受ASCII字符,而POST没有限制。
  GET比POST更不安全,因为参数直接暴露在URL上,所以不能用来传递敏感信息。
  GET参数通过URL传递,POST放在Request body中。

二、screpy框架

pipeline:返回items并存储
middleware:设置反爬机制,设置对应的反反爬对策:IP池,user-agent
settings:配置文件
spider:爬取所需的数据

 



















以上是关于爬虫基本知识的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫之基本知识

Python爬虫知识点——爬虫的基本原理

Python爬虫爬虫的基本原理

爬虫基本原理讲解

python爬虫的基本知识储备

python应用之爬虫实战1 爬虫基本原理