python爬虫需要啥基础

Posted 2023-04-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬虫需要啥基础相关的知识，希望对你有一定的参考价值。

网页知识

html，js,css，xpath这些知识，虽然简单，但一定需要了解。你得知道这些网页是如何构成的，然后才能去分解他们.

HTTP知识

一般爬虫你需要模拟浏览器的操作，才能去获取网页的信息

如果有些网站需要登录，才能获取更多的资料，你得去登录，你得把登录的账号密码进行提交

有些网站登录后需要保存cookie信息才能继续获取更多资料

正则表达式

有了正则表达式才能更好的分割网页信息，获取我们想要的数据，所以正则表达式也是需要了解的.

一些重要的爬虫库

url,url2

beautiul Soup

数据库

爬取到的数据我们得有个地方来保存，可以使用文件，也可以使用数据库，这里我会使用mysql，还有更适合爬虫的MongoDB数据库，以及分布式要用到的redis 数据库

爬虫框架

PySpider和Scrapy 这两个爬虫框架是非常NB的,简单的爬虫可以使用urllib与urllib2以及正则表达式就能完成，但高级的爬虫还得用这两个框架。这两个框架需要另行安装。后面一起学习.

反爬虫

有时候你的网站数据想禁止别人爬取，可以做一些反爬虫处理操作。打比方百度上就无法去查找淘宝上的数据，这样就避开了搜索引擎的竞争，淘宝就可以搞自己的一套竞价排名

分布式爬虫

使用多个redis实例来缓存各台主机上爬取的数据。

爬虫要学的东西还是挺多的，想把爬虫玩得666，基本就是这些知识点吧！

参考技术A

1. 学习Python基础知识并实现基本的爬虫过程

一般获取数据的过程都是按照发送请求-获得页面反馈-解析并且存储数据这三个流程来实现的。这个过程其实就是模拟了一个人工浏览网页的过程。

Python中爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，我们可以按照requests
负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。

2.了解非结构化数据的存储

爬虫抓取的数据结构复杂传统的结构化数据库可能并不是特别适合我们使用。我们前期推荐使用MongoDB 就可以。

3. 掌握一些常用的反爬虫技巧

使用代理IP池、抓包、验证码的OCR处理等处理方式即可以解决大部分网站的反爬虫策略。

4.了解分布式存储

分布式这个东西，听起来很恐怖，但其实就是利用多线程的原理让多个爬虫同时工作，需要你掌握 Scrapy + MongoDB + Redis
这三种工具就可以了。

参考技术B 　零基础如何学爬虫技术？对于迷茫的初学者来说，爬虫技术起步学习阶段，最重要的就是明确学习路径，找准学习方法，唯有如此，在良好的学习习惯督促下，后期的系统学习才会事半功倍，游刃有余。
用Python写爬虫，首先需要会Python，把基础语法搞懂，知道怎么使用函数、类和常用的数据结构如list、dict中的常用方法就算基本入门。作为入门爬虫来说，需要了解 HTTP协议的基本原理，虽然 HTTP 规范用一本书都写不完，但深入的内容可以放以后慢慢去看，理论与实践相结合后期学习才会越来越轻松。关于爬虫学习的具体步骤，我大概罗列了以下几大部分，也可以直接到老男孩python培训询问。大家可以参考：
网络爬虫基础知识:
爬虫的定义
爬虫的作用
Http协议
基本抓包工具(Fiddler)使用
Python模块实现爬虫：
urllib3、requests、lxml、bs4 模块大体作用讲解
使用requests模块 get 方式获取静态页面数据
使用requests模块 post 方式获取静态页面数据
使用requests模块获取 ajax 动态页面数据
使用requests模块模拟登录网站
使用Tesseract进行验证码识别
Scrapy框架与Scrapy-Redis：
Scrapy 爬虫框架大体说明
Scrapy spider 类
Scrapy item 及 pipeline
Scrapy CrawlSpider 类
通过Scrapy-Redis 实现分布式爬虫
借助自动化测试工具和浏览器爬取数据：
Selenium + PhantomJS 说明及简单实例
Selenium + PhantomJS 实现网站登录
Selenium + PhantomJS 实现动态页面数据爬取
爬虫项目实战：
分布式爬虫+ Elasticsearch 打造搜索引擎参考技术C 人类倾向于把知识包装得相当复杂，以此显得自己很牛逼。
爬虫不复杂。
你不需要学一堆基础知识之后，再来玩爬虫。
你不需要任何基础，想学爬虫，那么，直接、立即来玩爬虫。参考技术D

网页知识

html，js,css，xpath这些知识，虽然简单，但一定需要了解。你得知道这些网页是如何构成的，然后才能去分解他们.

HTTP知识

一般爬虫你需要模拟浏览器的操作，才能去获取网页的信息

如果有些网站需要登录，才能获取更多的资料，你得去登录，你得把登录的账号密码进行提交

有些网站登录后需要保存cookie信息才能继续获取更多资料

正则表达式

有了正则表达式才能更好的分割网页信息，获取我们想要的数据，所以正则表达式也是需要了解的.

一些重要的爬虫库

url,url2

beautiul Soup

数据库

爬取到的数据我们得有个地方来保存，可以使用文件，也可以使用数据库，这里我会使用mysql，还有更适合爬虫的MongoDB数据库，以及分布式要用到的redis 数据库

爬虫框架

反爬虫

分布式爬虫

学爬虫，需要掌握哪些Python基础？

入手爬虫确实不要求你精通Python编程，但基础知识还是不能忽视的，那么我们需要哪些Python基础呢？

首先我们先来看看一个最简单的爬虫流程：

第一步要确定爬取页面的链接，由于我们通常爬取的内容不止一页，所以要注意看看翻页、关键字变化时链接的变化，有时候甚至要考虑到日期；另外还需要主要网页是静态、动态加载的。

第二步请求资源，这个难度不大，主要是Urllib,Request两个库的使用，必要时候翻翻官方文档即可

第三步是解析网页。请求资源成功后，返回的整个网页的源代码，这时候我们就需要定位，清洗数据了

谈到数据，第一个要注意的点就是数据的类型，是不是该掌握！

其次，网页上的数据往往排列十分整齐，这多亏了列表，使用大部分网页数据整洁而有规律，所以列表、循环语句是不是也要掌握！

但值得注意得是网页数据不一定都是整齐而有规律的，比如最常见的个人信息，除了必填选项，其他部分我就不爱填，这时候部分信息缺失了，你是不是得先判断一下是否有数据，再进行抓取，所以判断语句是不是也不能少！

掌握以上内容，我们的爬虫基本上能跑起来了，但为了提高代码效率，我们可以借助函数将一个程序分割成多个小部分，每部分负责一部分内容，这样就能根据需要多次调动一个函数了，如果你再厉害点，以后开发个爬虫软件，是不是还要再掌握个类

第四步是保存数据，是不是得先打开文件，写数据，最后关闭啊，所以是不是还得掌握文件的读写啊!

所以，你需要的掌握的最最最基本的Python知识点有

我刚整理了一套2018最新的0基础入门和进阶教程，无私分享，加Python学习q u n ：227-435-450即可获取，内附：开发工具和安装包，以及系统学习路线图

线程与进程

当然只掌握这些是远远不够的，因为我们还有分布式爬虫，爬虫框架等，这要求我们掌握线程与进程；这两个可能会比较陌生，我还没接触爬虫时候也不懂这些，所以先来看看他们的概念

进程：资源分配的最小单位

线程：程序执行的最小单位

看起来太抽象了，我们打个比方吧：

进程就相当于你打开的一个个程序，如QQ，微信，微博等，而进程就相当于程序里的每一个命令，如收发消息等

1.多线程与多进程

多线程、多进程顾名思义就是多个线程、进程并行，是实现多任务的好帮手，所以在效率上有

单进程+单线程 < 单进程+多线程 < 多进程+多线程

再来打个比方，假如我要给整个班级的同学发份资料，我可以通过微信一个一个地发给他们——单进程+单线程，但这效率实在太低了，特别费时；于是我可以选择用微信群发啊——单进程+多线程，这样效率一下子提高了很多，但问题又来了，微信群发上限是200人，假如我要给400人发文件，是不是就得分两次群发呢？为了节省时间，我还可以一部分用qq群发，一部分用微信群发，这就是多进程+多线程