scrapy框架 简易整理

Posted l-jie-n

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy框架 简易整理相关的知识,希望对你有一定的参考价值。

- scrapy框架
 介绍:大而全的爬虫组件。
        
安装:
            - Win:
                下载:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
                
                pip3 install wheel
                pip install Twisted?18.4.0?cp36?cp36m?win_amd64.whl
                
                pip3 install pywin32
                
                pip3 install scrapy
            - Linux:
                pip3 install scrapy
    
    
 使用:
            Django:
                # 创建project
                django-admin startproject mysite
                
                cd mysite
                
                # 创建app
                python manage.py startapp app01
                python manage.py startapp app02
                
                # 启动项目
                python manage.runserver
                
            Scrapy:
                # 创建project
                scrapy  startproject xdb
                
                cd xdb
                
                # 创建爬虫
                scrapy genspider chouti chouti.com
                scrapy genspider cnblogs cnblogs.com
                
                # 启动爬虫
                scrapy crawl chouti
    
            
            
            
            1. 创建project
                scrapy startproject 项目名称
                
                项目名称
                   项目名称/
                        - spiders                # 爬虫文件
                            - chouti.py
                            - cnblgos.py
                            ....
                        - items.py                 # 持久化
                        - pipelines                # 持久化
                        - middlewares.py        # 中间件
                        - settings.py             # 配置文件(爬虫)
                   scrapy.cfg                    # 配置文件(部署)
            
            2. 创建爬虫
                cd 项目名称
                
                scrapy genspider chouti chouti.com
                scrapy genspider cnblgos cnblgos.com
                
            3. 启动爬虫
                scrapy crawl chouti
                scrapy crawl chouti --nolog
                
总结:
            - html解析:xpath
            - 再次发起请求:yield Request对象











































































以上是关于scrapy框架 简易整理的主要内容,如果未能解决你的问题,请参考以下文章

python 爬虫框架scrapy学习记录和整理 python爬虫框架scrapy入门文档学习

Python中scrapy框架如何安装配置

Python爬虫进阶之Scrapy框架安装配置

基于Scrapy框架的Python新闻爬虫

Python爬虫从入门到放弃之 Scrapy框架整体的一个了解

Python爬虫进阶三之Scrapy框架安装配置