爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库

Posted Zero_Adam

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库相关的知识,希望对你有一定的参考价值。

1. 写入文件的时候要encoding一下。

window默认的编码是 gbk 编码,
在这里插入图片描述
在这里插入图片描述

1. re

1. 正则的基础知识

在这里插入图片描述
字符组,数字,字母: [a-zA-Z0-9]
[^***]。除了这里面的都行,

在这里插入图片描述
.*?非贪婪匹配

2. python的re模块。

在这里插入图片描述

2. re.finditer ( r"\\d+", “********”) 最常用!!!!

在这里插入图片描述
取东西:

在这里插入图片描述

在这里插入图片描述在这里插入图片描述

在这里插入图片描述

3. 预加载正则表达式:

正则很长的化,就很方便。。

在这里插入图片描述

4. 从正则中取出数据来。

  • 我想把里面的名字什么的拿出来。
    在这里插入图片描述

在这里插入图片描述
(?P<name>正则 ) 可以单独从正则匹配的内容中进一步提取内容
(?P<name>.*?)。然后那的时候,it.group('name')。就拿到了。

在这里插入图片描述

以上是关于爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库的主要内容,如果未能解决你的问题,请参考以下文章

爬虫学习 ----- 第二章 爬取静态网站 ---------- 05. 防盗链,爬取梨视频之 referer XHR

爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库

爬虫学习 ----- 第二章 爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂

18分钟带你掌握商业爬虫框架Scrapy---爬取明星图片

webmagic爬取渲染网站

如何防止网站被爬虫爬取的几种办法