网络爬虫
Posted zypfzw
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫相关的知识,希望对你有一定的参考价值。
阶段大纲:
一.爬虫
1.基本操作
—登录任意网站(伪造浏览器的任何行为)
2.性能相关
—并发方案:
—异步IO:gevent/Twisted/asyncio/aiohttp
—自定义异步IO 模块
—IO多路复用:select
3.Scrapy框架
介绍:异步IO:Twisted
—基于scrapy源码自定义爬虫框架
—使用Scrapy
二.Tornado框架(异步非阻塞)
1.Tornado的基本使用
— 小实例
—自定义组件
2. Tornado的源码解析
3.自定义异步非阻塞框架
爬虫基本操作:
a.爬虫
1.定向(固定的网站)
2.非定向
b.
下载页面:http://www.autohome.com.cn/news/
筛选:正则表达式
-----------开源模块----------
1.requests
2.beautisoup模块
以上是关于网络爬虫的主要内容,如果未能解决你的问题,请参考以下文章