爬虫3

Posted helloqaz

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫3相关的知识,希望对你有一定的参考价值。

1、cookie cookie是什么?

http协议,发请求-给响应 发请求-给响应 无状态特性 有问题的。 登录请求-响应 登录后请求-响应 这个问题如何解决? 引入了cookie,会话机制 登录请求-响应 响应的头部会有一些信息发给客户端,缓存起来 登录后请求-响应 请求的时候,将你保存的信息带过来即可 session 信息的保存,cookie保存到客户端,session,信息保存到服务端,sessionid保存到客户端 抛出问题: 一个页码有一个url,登录后的页码(个人资料页)也有一个url 如何通过代码访问登录后的页面(个人资料页) http://www.renren.com/960481378/profile (1)拿到cookie 通过浏览器抓包,抓取访问登陆后页面的cookie,写到代码中即可

(2)模拟登录 先模拟发送post,在发送get 保存和携带cookie的功能,搞cookiejar

2、正则表达式 为什么使用正则表达式?

查找,字符串查找函数(find,rfind,index) 固定的字符串 17701256561 13838384380 15612345678 [email protected] [email protected] 查找匹配一批有相同规则的字符串的时候使用正则 js正则,前端验证 有很多规则,非常灵活,根据特定的需求写的


(1)单字符匹配
d   0-9 所有的数字字符         [0-9]
D   除了 d
w   数字-字母-下划线 一个中文 [a-zA-Z0-9_]
W   除了 w
s   所有的空白字符 空格
S   除了 s
.     除了 以外任意字符
[aeiou] 匹配这里面任意一个
(2)数量修饰
{n}   修饰前面的一个字符出现多少次
{n,m} 至少n次,最多m次   贪婪匹配,能多匹配就多匹配
{n,} 最少n次
{0,} 任意多次   *
{1,} 至少1次   +
{0,1} 可有可无   ?
(3)边界相关
^     以某某开头
$     以某某结尾
(4)贪婪和非贪婪
.*
.*?   取消贪婪
.+
.+?   取消贪婪
import re
compile   生成一个正则对象
search   从任意位置开始匹配,匹配成功立即结束,返回对象
match     从开头开始匹配,匹配成功立即结束,返回对象
ret.group()   ret.span()
findall   匹配所有符合要求的字符串,返回列表,列表里面都是匹配的内容
(5)子模式
在正则里面出现 ()
1、看作一个整体
(ab){3}
2、一个子模式
1 第一个小括号匹配的内容
2 第二个小括号匹配的内容
(6)正则替换
sub
(7)修饰符
re.I   忽略大小写
re.S   视为单行模式
re.M   多行匹配

 












































以上是关于爬虫3的主要内容,如果未能解决你的问题,请参考以下文章

NIH周三讲座视频爬虫

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段

VSCode自定义代码片段3——url大全

VSCode自定义代码片段3——url大全

VSCode自定义代码片段3——url大全

python爬虫学习笔记-M3U8流视频数据爬虫