Scrapy-爬虫介绍

Posted benchdog

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scrapy-爬虫介绍相关的知识,希望对你有一定的参考价值。

爬虫基本操作

  1.应用

    - 舆情系统:监听各大门户网站的热门词条、热门新闻,做进一步分析处理和展示

2.爬虫

  -  定向

  - 非定向

3.

  - 下载页面:

      http://www.autohome.com.cn/news/

  - 筛选:

      正则表达式

  ======= 开源模块 =======

  1.requests

    pip3 install requests

    response = requests.get(‘http://www.autohome.com.cn/news/‘)

    response.text

  2.beautifulsoup

    pip3 install BeautifulSoup4

    from bs4 import BeautifulSoup 

    soup = BeautiSoup(response.text,features=‘html.parser‘)  #将html转换为对象,对象嵌套对象

    target = soup.find(id=‘auto-channel-lazyload-article‘)

    print(target)

爬虫并发方案

    - 异步IO:gevent/Twisted/asyncio/aiohttp

    - IO多路复用:select

Scrapy框架

    - 异步IO:Twisted

以上是关于Scrapy-爬虫介绍的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫随笔-scrapy框架——scrapy框架的安装和结构介绍

爬虫之scrapy框架

Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍

Python爬虫基础--Scrapy框架的安装及介绍

介绍一款能取代 Scrapy 的爬虫框架 - feapder

爬虫篇 | 高级爬虫:Scrapy爬虫框架的安装