Scrapy模块

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scrapy模块相关的知识,希望对你有一定的参考价值。

1、 Scrapy选择器XPath和CSS

scrapy提取数据有自己的一套机制,他们被称为选择器(selector),通过特定的XPath或者CSS表达式来"选择""html文件中的某个部分"

Xpath是一门在XML文件中选择节点的语言,也可以用在HTML,CSS是一门将HTML文档样式化的语言,选择器由他定义,并于特定的HTML元素的样式相关联

scrapy的选择器构建与lxml库之上,这意味着他们的速度和解析准确性上非常相似。

(1)、 Xpath选择器

在Xpath中有7种类型的节点:元素,属性,文本,命名空间,处理指令,注释以及文档节点。XML文档是被作为节点数来对待的。

创建一个superHero.xml文档

<superHero>
<class>
<name lang="en">Tony Stark</name>
<alias>Iron Man</alias>
<sex>male</sex>
<birthday>1969</birthday>
<age>47</age>
</class>
<class>
<name lang="en">Peter Benjamin</name>
<alias>Spider Man</alias>
<sex>male</sex>
<birthday>unknown</birthday>
<age>unknown</age>
</class>
<class>
<name lang="en">Steven Rogers</name>
<alias>Captain Amercia</alias>
<sex>male</sex>
<birthday>19200704</birthday>
<age>96</age>
</class>
</superHero>

 在这个superHero中,<superHero>是文档节点,<alias>是元素节点,lang="en"是属性节点。

Xpath使用路径表达式在XML文档中选取节点。下表列出了最常用的路径表达式

 

  1.   

以上是关于Scrapy模块的主要内容,如果未能解决你的问题,请参考以下文章

Scrapy模块

scrapy模块安装冲突的解决方法

第三百二十三节,web爬虫,scrapy模块以及相关依赖模块安装

一日一技:从 Scrapy 学习模块导入技巧

scrapy_splash模块解析动态js

Python爬虫实战,Scrapy实战,大众点评爬虫