1.Scrapy爬虫之静态网页爬取之一 了解response.xpath()
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了1.Scrapy爬虫之静态网页爬取之一 了解response.xpath()相关的知识,希望对你有一定的参考价值。
参考技术A 我们直接看例子:
网址: http://quotes.toscrape.com/
1. xpath提取方法:
用谷歌浏览器打开网页,右键检查,选中标签-copy-copyxpath
2.如何得到网页信息:
在jupyter中的terminal中(jupyter中的termimal不能运行在windows系统中) 输入 scrapy shell http://quotes.toscrape.com/
会有请求信息返回,返回response对象,里面包含网页所有信息。
楼主安装了3.6的anaconda,但是里面没集成scrapy框架。但是也安装了python2.7,里面成功安装了scrapy(添加环境变量了,命令行任意位置识别scrapy命令,不添加环境变量的话,只在它的文件夹下识别这个命令)。打开windows命令行,同样键入:scrapy shell http://quotes.toscrape.com/ 会有请求信息返回。[s]开头
如下:
response是请求后所返回的对象,200说明返回正确
要验证表达式对不对,会返回一个对象叫response,这个response包含了这个网页的所有内容:
3.如何自己写xpath获取同一标签下的所有信息:
以上是关于1.Scrapy爬虫之静态网页爬取之一 了解response.xpath()的主要内容,如果未能解决你的问题,请参考以下文章