Python爬虫编程思想(145):使用Scrapy Shell抓取Web资源
Posted 蒙娜丽宁
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫编程思想(145):使用Scrapy Shell抓取Web资源相关的知识,希望对你有一定的参考价值。
Scrapy提供了一个Shell,相当于Python的REPL环境,我们可以用这个Scrapy Shell测试Scrapy代码。
现在打开终端,然后执行scrapy shell命令,就会进入Scrapy Shell。其实Scrapy Shell和Python的REPL环境差不多,也可以执行任何的Python代码,只是又多了对Scrapy的支持,例如,在Scrapy Shell中输入1+3,然后按回车,会输出4,如图1所示。
Scrapy主要是使用XPath过滤html页面的内容。那么什么是XPath呢?也就是类似于路径的过滤HTML代码的一种技术,关于XPath的内容后面再详细讨论。本节基本不需要了解XPath就可以使用,因为Chrome可以根据HTML代码的某个节点自动生成XPath。
现在先体验下什么叫XPath。启动Chrome浏览器
以上是关于Python爬虫编程思想(145):使用Scrapy Shell抓取Web资源的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫编程思想(145):使用Scrapy Shell抓取Web资源
Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序
Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序
Python爬虫编程思想(148):在PyCharm中使用扩展工具运行Scrapy程序