爬虫爱用的一些python技巧

Posted -chenxs

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫爱用的一些python技巧相关的知识,希望对你有一定的参考价值。

1.正则表达式

有时候提取到的数据不规整,需要用正则来匹配所需要展现出来的数据

学习链接:https://www.cnblogs.com/-chenxs/p/11352172.htmlhttps://www.cnblogs.com/-chenxs/p/11352409.html

2.对数据的切分处理

有时候提取出来的数据字符串两边的内容或一边的内容不需要,或者去除字符串两边的空格、一些转移字符;

我们可以使用字符串切分或者strip()方法来对字符串两边的内容进行切割操作

3.format()方法

对字符串格式化的一种方式

比如我们爬虫对url处理,生成url列表的时候,要使url中一个参数的值按照某种规律变化时就会使用到format

url="http://www.xxx.com/a/b="
url.format(1) #那么b=1
url.format(i) for i in range(1,10) #打印出b=1-9的九条url

4.列表推导式

帮助我们快速的生成包含一堆数据的列表

>>>[i+10 for i in range(10)]
[10,11,12,...19]

>>>["10月日".format(i) for i in range(1,10)]
["10月1日","10月2日",..."10月9日"]

5.字典推导式

帮助我们快速的生成包含一堆数据的字典

>>>i+10:i for i in range(10)
10:0,11:1,12:2,...19:9
>>>"a".format(i):10 for i in range(3)
"a0":10,"a1":10,"a2":10

6.三元运算符

赋值操作 if 条件 else 另外的值

----  if  后面的条件成立,就把if前面的结果赋值给a,否则把else后面的结果赋值给a

a=10 if 2>1 else 20 # a=10

a=10 if 2<1 else 20 # a=20

 

以上是关于爬虫爱用的一些python技巧的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫:一些爬虫常用的技巧

python 爬虫的一些使用技巧

Python:爬虫技巧总结!

[转]用python爬虫抓站的一些技巧总结 zz

转帖用python爬虫抓站的一些技巧总结

Python网络爬虫技巧小总结,静态动态网页轻松爬取数据