jdango+scrapy结合使用并爬取数据入库

Posted kitshenqing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了jdango+scrapy结合使用并爬取数据入库相关的知识,希望对你有一定的参考价值。

 

1. 创建django项目,并编写models.py,启动django项目

 

2. 配置Django嵌入
  Django项目根目录下创建Scrapy项目(这是scrapy-djangoitem所需要的配置)
  配置Django嵌入,在Scrapy的settings.py中加入以下代码:

import os
import sys
sys.path.append(os.path.dirname(os.path.abspath(.)))
os.environ[DJANGO_SETTINGS_MODULE] = ‘子app.settings
# 手动初始化Django:
import django
django.setup()

 

3.编写爬虫

 

4.item.py中引入Django模型类

import scrapy
    
from scrapy_djangoitem import DjangoItem
from 子app import models
class TalksItem(DjangoItem):
    django_model = models.表名

 

5.pipelines.py中调用save()

class TalksPipeline(object):
    def process_item(self, item, spider):
        print(打开数据库)
        item.save() # 数据将会自动添加到指定的表
        print(关闭数据库)
        return item

 

6.启动爬虫:scrapy crawl 爬虫名

 

7.刷新admin后台,此时数据已经入库了!

 

开不开心!

以上是关于jdango+scrapy结合使用并爬取数据入库的主要内容,如果未能解决你的问题,请参考以下文章

selenium跳过webdriver检测并爬取淘宝我已购买的宝贝数据

scrapy框架爬取糗事百科

爬虫入门:Firefox 结合 Scrapy Shell 爬取网页数据

Python+selenium+firefox模拟登录微博并爬取数据(1

Python模拟登入豆瓣网,并爬取小组信息

scrapy结合selenium爬取淘宝等动态网站