scrapy的启动及正则表达式

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy的启动及正则表达式相关的知识,希望对你有一定的参考价值。

参考技术A 1.scrapy的启动在对应的目录下:

如果在启动过程中出现"win32api"的错误 则pip install pypiwin32
2.正则表达式:
"""
^ 表示以什么开始如:^b表示以b字母开头
. 表示任意字符
* 表示前面的字符可以出现任意多次
$ 表示以什么结束如:3$表示以3结尾
? 表示非贪婪模式,正则表达式默认的是贪婪模式,贪婪模式是从后往前匹配
+ 表示前面的字符至少出现一次
3出现的次数 3,至少出现3次3,5至少出现3次最多5次
|表示或关系
\s 表示空格\S不为空格可以
\w表示[A-Za-z0-9]\W表示不为\w可以
[\u4E00-\u9FA5]表示汉字如line="study in 南京大学"reg=".*?([\u4E00-\u9FA5]+大学)"
\d表示数字
s.decode("gb2312").encode("utf-8")
encode 前面必须是unicode编码
decode是对前面("")格式转化为unicode
python3 不需要在声明,默认全部是unicode
"""

正则表达式特殊字符scrapy应用

正则表达式内容比较多,如果系统的学习会比较费时间,现在归纳一下scrapy需要用到的正则表达式

1.表示开头或者结尾:‘^‘+‘某个字符‘表示以这个字符开头,‘某个字符‘+‘$‘表示以这个字符结尾

2表示任意:‘.’表示任意字符,‘*‘前面的字符重复任意次,‘.*‘可以表示任意一堆字符,‘[]‘表示中括号里的字符只要任意出现一个就可以,另外中括号里的特殊字符不再有特殊意义其中的’^‘表示反,‘/w‘表示a-z,A-Z,0-9中任意字符‘/W‘表示其他任意字符

3.字符出现次数:‘.*‘出现任意次,‘.+‘至少出现一次,‘{n}‘出现n次,‘{n,}‘至少出现n次,‘{n,m}’至少出现n次至多出现m次

4.特殊字符反向匹配且贪婪匹配,‘?‘防止贪婪匹配,且不能反向匹配

5.其他:‘/s‘空白,‘/S‘除空白外的其他字符[\u4E00-\u9FAS]+表示中文,‘/d‘表示数字

 

以上是关于scrapy的启动及正则表达式的主要内容,如果未能解决你的问题,请参考以下文章

scrapy的使用-LinkExtractor

scrapy的Xpath表达式总结

Linux正则表达式及grep命令

正则表达式特殊符号及用法

正则表达式及grep

正则表达式及grep