scrapy1.1入门用例简介

Posted 2020-08-02

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了scrapy1.1入门用例简介相关的知识，希望对你有一定的参考价值。

今天将scrapy安装成功，测试了下，倒腾了好长时间，才倒腾成功，特此分享。

其实最好的老师就是scrapy的帮助文档，只要把文档看懂，照着做，也就啥都会儿了！

帮助文档下载见http://download.csdn.net/detail/flyinghorse_2012/9566467

0.新建立一个文件夹，用来存放相关文件，命名为test

1.构建scrapy project

运行命令：

scrapy startproject tutorial

效果如下:

2.构建spider

运行如下命令：

scrapy genspider dmoz dmoz.org

格式要求说明：scrapy genspider spidername spiderwebsite

spidername必须为唯一，spiderwebsite可随便制定，对应dmoz.py中的allowed_domains.

效果如下：

3.修改items.py

找到....test\\tutorial\\tutorial\\items.py，修改文件内容为：

import scrapy

class TutorialItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()

保存。

4.修改dmoz.py

找到....\\test\\tutorial\\tutorial\\spiders\\dmoz.py，修改文件内容为：

# -*- coding: utf-8 -*-
import scrapy

class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = (
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
)

def parse(self, response):
filename = response.url.split("/")[-2] + \'.html\'
with open(filename, \'wb\') as f:
f.write(response.body)

保存。

5.运行爬虫

scrapy crawl dmoz

格式要求说明：scrapy crawl spidername

spidername即为step2中的spidername。

效果如下：

已成功生成2个html文件，网页内容已被抓取到。

以上是关于scrapy1.1入门用例简介的主要内容，如果未能解决你的问题，请参考以下文章

pytest接口自动化零基础入门到精通（01）入门基础篇

Appium新手入门—— Appium测试用例

LogstashLogstash快速入门（二十五）

测试用例模板组成

测试用例的编写

用例图简介（转）