Python爬虫编程思想(145):使用Scrapy Shell抓取Web资源

Posted 蒙娜丽宁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫编程思想(145):使用Scrapy Shell抓取Web资源相关的知识,希望对你有一定的参考价值。

Scrapy提供了一个Shell,相当于Python的REPL环境,我们可以用这个Scrapy Shell测试Scrapy代码。

现在打开终端,然后执行scrapy shell命令,就会进入Scrapy Shell。其实Scrapy Shell和Python的REPL环境差不多,也可以执行任何的Python代码,只是又多了对Scrapy的支持,例如,在Scrapy Shell中输入1+3,然后按回车,会输出4,如图1所示。

 

        Scrapy主要是使用XPath过滤html页面的内容。那么什么是XPath呢?也就是类似于路径的过滤HTML代码的一种技术,关于XPath的内容后面再详细讨论。本节基本不需要了解XPath就可以使用,因为Chrome可以根据HTML代码的某个节点自动生成XPath。

     现在先体验下什么叫XPath。启动Chrome浏览器࿰

以上是关于Python爬虫编程思想(145):使用Scrapy Shell抓取Web资源的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫编程思想(145):使用Scrapy Shell抓取Web资源

Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序

Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序

Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序

Python3分布式爬虫(scrap+redis)基础知识和实战详解

Python爬虫编程思想(12):搭建代理与使用代理