1.Scrapy爬虫之静态网页爬取之一了解response.xpath()

Posted 2023-03-14

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了1.Scrapy爬虫之静态网页爬取之一了解response.xpath()相关的知识，希望对你有一定的参考价值。

参考技术A

我们直接看例子：
网址： http://quotes.toscrape.com/

1. xpath提取方法：
用谷歌浏览器打开网页，右键检查，选中标签-copy-copyxpath

2.如何得到网页信息：
在jupyter中的terminal中（jupyter中的termimal不能运行在windows系统中）输入 scrapy shell http://quotes.toscrape.com/
会有请求信息返回，返回response对象，里面包含网页所有信息。
楼主安装了3.6的anaconda，但是里面没集成scrapy框架。但是也安装了python2.7，里面成功安装了scrapy（添加环境变量了，命令行任意位置识别scrapy命令，不添加环境变量的话，只在它的文件夹下识别这个命令）。打开windows命令行，同样键入：scrapy shell http://quotes.toscrape.com/ 会有请求信息返回。[s]开头
如下：

response是请求后所返回的对象，200说明返回正确
要验证表达式对不对，会返回一个对象叫response，这个response包含了这个网页的所有内容:

3.如何自己写xpath获取同一标签下的所有信息：

以上是关于1.Scrapy爬虫之静态网页爬取之一了解response.xpath()的主要内容，如果未能解决你的问题，请参考以下文章

18分钟带你掌握商业爬虫框架Scrapy---爬取明星图片

python爬虫--scrapy框架

爬虫实战：爬虫之 web 自动化终极杀手 ( 上）

爬虫实验：使用Scrapy抓取网页内容

Python网络爬虫技巧小总结，静态动态网页轻松爬取数据

网络爬虫之selenium(综述)

1.Scrapy爬虫之静态网页爬取之一 了解response.xpath()

1.Scrapy爬虫之静态网页爬取之一了解response.xpath()