Hello to Scrapy

Posted nehcdahc

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hello to Scrapy相关的知识,希望对你有一定的参考价值。

步骤

  1. 安装 Python,版本选择 Python 3,原因看这里:https://wiki.python.org/moin/Python2orPython3

  2. 创建 virtual environment(venv)

    # 在当前目录创建虚拟环境
    python -m venv .
    
    # 激活虚拟环境
    .ScriptsActivate.ps1
  3. 安装 pip

    # 升级 pip 版本
    # -i 用来指定 pipy 源
    python -m pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple
  4. 安装 Scrapy

    pip install Scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple
  5. 写脚本 quotes_spider.py

    import scrapy
    
    
    class QuotesSpider(scrapy.Spider):
       name = 'quotes'
       start_urls = [
          'http://quotes.toscrape.com/tag/humor/',
       ]
    
       def parse(self, response):
          for quote in response.css('div.quote'):
                yield {
                   'author': quote.xpath('span/small/text()').get(),
                   'text': quote.css('span.text::text').get(),
                }
    
          next_page = response.css('li.next a::attr("href")').get()
          if next_page is not None:
                yield response.follow(next_page, self.parse)
  6. 执行脚本

    scrapy runspider quotes_spider.py -o quotes.json

参考

以上是关于Hello to Scrapy的主要内容,如果未能解决你的问题,请参考以下文章

scrapy按顺序启动多个爬虫代码片段(python3)

sublime text 3 添加代码片段

Scrapy Spider没有返回所有元素

sublime text3 添加新片段

解决移动端报错:Unable to preventDefault inside passive event listener due to target being treated as……(代码片段

[TIA PORTAL][CONVERT] Convert Char Array to DInt...DInt to Char Array..Useful and easy function(代码片段