爬虫基础知识
Posted WANGLC
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫基础知识相关的知识,希望对你有一定的参考价值。
1.安装 requests scrapy 豆瓣源 pip install -i 豆瓣源 包名
2.新建虚拟环境时使用 -p 参数指定 Python的版本目录 virtualenv -p pythonpath envXXX
3.网页分类
静态网页
动态网页
webservice
4.爬虫的应用
搜索引擎
推荐引擎
机器学习的数据样本
金融等数据分析
等。。。
5.正则表达式
^:(限定开头)
.:(一个字符)
* + {n}:(限定词)
|:(或)
():括号用于提取子字符串
[ a-z ]:指定字符为中括号中任意一个 1[58347][0-9]{9}: 电话号码验证 1开头 第二位只能是58347中的一位 最后剩下九位只能再0-9之间选择
&:(限定结尾)
^a : 以字母a开头
^a.: 以字母a开头后面任意一个字符
^a.*: 以字母a开头并且后面任意字符
^a.*3$: 以字母a开头并且后面任意字符3$以3结尾 *限定词 0-多次
^a.+3$: 加号用于限定前面的字符至少出现一次 aX3 aXX3 ... +限定词 1-多次
^a.{2}3$: 加号用于限定前面的字符出现两次 aXX3 {1},{1,3},{1,}限定词 指定n-m次
import re str = ‘wlc123‘ zhengze = ‘^w.*‘ if re.match(zhengze, str): print(True)
import re #用于解释贪婪匹配此案例输出结果为cc 而不是clllllllllc #因此需要添加问号?使得匹配从左往右进行就可以得到clllllllllc了 #只在左边添加?结果会变成cllllllllcc后边还是会贪婪匹配 因此在后边的c之前也要加上? str = ‘wwlcllllllllllcc123‘ zhengze = ‘.*(c.*c).*‘ #zhengze = ‘.*?(c.*?c).*‘ result = re.match(zhengze, str) print (result.group(1))
6.深度广度优先遍历算法
7.url去重的常见策略
待续
以上是关于爬虫基础知识的主要内容,如果未能解决你的问题,请参考以下文章
[vscode]--HTML代码片段(基础版,reactvuejquery)
Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段