1.Scrapy爬虫之静态网页爬取之一 了解response.xpath()

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了1.Scrapy爬虫之静态网页爬取之一 了解response.xpath()相关的知识,希望对你有一定的参考价值。

参考技术A

我们直接看例子:
网址: http://quotes.toscrape.com/

1. xpath提取方法:
用谷歌浏览器打开网页,右键检查,选中标签-copy-copyxpath

2.如何得到网页信息:
在jupyter中的terminal中(jupyter中的termimal不能运行在windows系统中) 输入 scrapy shell http://quotes.toscrape.com/
会有请求信息返回,返回response对象,里面包含网页所有信息。
楼主安装了3.6的anaconda,但是里面没集成scrapy框架。但是也安装了python2.7,里面成功安装了scrapy(添加环境变量了,命令行任意位置识别scrapy命令,不添加环境变量的话,只在它的文件夹下识别这个命令)。打开windows命令行,同样键入:scrapy shell http://quotes.toscrape.com/ 会有请求信息返回。[s]开头
如下:

response是请求后所返回的对象,200说明返回正确
要验证表达式对不对,会返回一个对象叫response,这个response包含了这个网页的所有内容:

3.如何自己写xpath获取同一标签下的所有信息:

以上是关于1.Scrapy爬虫之静态网页爬取之一 了解response.xpath()的主要内容,如果未能解决你的问题,请参考以下文章

18分钟带你掌握商业爬虫框架Scrapy---爬取明星图片

python爬虫--scrapy框架

爬虫实战:爬虫之 web 自动化终极杀手 ( 上)

爬虫实验:使用Scrapy抓取网页内容

Python网络爬虫技巧小总结,静态动态网页轻松爬取数据

网络爬虫之selenium(综述)