爬虫基础知识

Posted WANGLC

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫基础知识相关的知识,希望对你有一定的参考价值。

1.安装 requests scrapy 豆瓣源         pip install -i 豆瓣源 包名 

2.新建虚拟环境时使用 -p 参数指定 Python的版本目录 virtualenv -p pythonpath envXXX

3.网页分类

  静态网页

  动态网页

  webservice

4.爬虫的应用

  搜索引擎

  推荐引擎

  机器学习的数据样本

  金融等数据分析

  等。。。

5.正则表达式

  ^限定开头)       

  .一个字符)     

  * + {n}(限定词)           

  |()       

  ()括号用于提取子字符串   

  [ a-z ]指定字符为中括号中任意一个       1[58347][0-9]{9}: 电话号码验证 1开头 第二位只能是58347中的一位 最后剩下九位只能再0-9之间选择                                                         

  &限定结尾) 

  ^a : 以字母a开头

  ^a.: 以字母a开头后面任意一个字符

  ^a.*: 以字母a开头并且后面任意字符

  ^a.*3$: 以字母a开头并且后面任意字符3$以3结尾 *限定词 0-多次

  ^a.+3$: 加号用于限定前面的字符至少出现一次 aX3 aXX3 ...  +限定词 1-多次

  ^a.{2}3$: 加号用于限定前面的字符出现两次 aXX3   {1},{1,3},{1,}限定词 指定n-m次

import re
str = wlc123
zhengze = ^w.*
if re.match(zhengze, str):
    print(True) 
import re
#用于解释贪婪匹配此案例输出结果为cc 而不是clllllllllc
#因此需要添加问号?使得匹配从左往右进行就可以得到clllllllllc了
#只在左边添加?结果会变成cllllllllcc后边还是会贪婪匹配 因此在后边的c之前也要加上?
str = wwlcllllllllllcc123
zhengze = .*(c.*c).*
#zhengze = ‘.*?(c.*?c).*‘
result = re.match(zhengze, str)
print (result.group(1))

  

6.深度广度优先遍历算法

 

7.url去重的常见策略

 待续 

以上是关于爬虫基础知识的主要内容,如果未能解决你的问题,请参考以下文章

android小知识点代码片段

[vscode]--HTML代码片段(基础版,reactvuejquery)

NIH周三讲座视频爬虫

Python网络爬虫学习手记——爬虫基础

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段

python爬虫学习笔记-M3U8流视频数据爬虫