jdango+scrapy结合使用并爬取数据入库
Posted kitshenqing
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了jdango+scrapy结合使用并爬取数据入库相关的知识,希望对你有一定的参考价值。
1. 创建django项目,并编写models.py,启动django项目
2. 配置Django嵌入
Django项目根目录下创建Scrapy项目(这是scrapy-djangoitem所需要的配置)
配置Django嵌入,在Scrapy的settings.py中加入以下代码:
import os import sys sys.path.append(os.path.dirname(os.path.abspath(‘.‘))) os.environ[‘DJANGO_SETTINGS_MODULE‘] = ‘子app.settings‘ # 手动初始化Django: import django django.setup()
3.编写爬虫
4.item.py中引入Django模型类
import scrapy from scrapy_djangoitem import DjangoItem from 子app import models class TalksItem(DjangoItem): django_model = models.表名
5.pipelines.py中调用save()
class TalksPipeline(object): def process_item(self, item, spider): print(‘打开数据库‘) item.save() # 数据将会自动添加到指定的表 print(‘关闭数据库‘) return item
6.启动爬虫:scrapy crawl 爬虫名
7.刷新admin后台,此时数据已经入库了!
开不开心!
以上是关于jdango+scrapy结合使用并爬取数据入库的主要内容,如果未能解决你的问题,请参考以下文章
selenium跳过webdriver检测并爬取淘宝我已购买的宝贝数据
爬虫入门:Firefox 结合 Scrapy Shell 爬取网页数据