爬虫小技巧总结

Posted 向阳-Y.

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫小技巧总结相关的知识,希望对你有一定的参考价值。

定位技巧篇

etree定位:

from lxml import etree
tree = etree.html(response)
public_key = tree.xpath('//input[@id="e"]/@value')[0]

遇到字典数据格式可以转成json,并一层层剥离进行定位:

import json
do=json.loads(raw_json)#转换为json数据
data_list=do['data']['response']['videos']

遇到不干净的字典数据可以先进行整理,并一层层剥离

KZLoginHandler.jsonpCallbackKongZ(“dc”:“3D819DDC47FD044C38DB02DA22DC1F2C”,“kzmsg”:"",“service”:“https://passport.kongzhong.com/”,“state”:“0”)

import re
import json
re = 'KZLoginHandler.jsonpCallbackKongZ\\((.*?)\\)'
raw_json = re.findall(re.raw_json)
do=json.loads(raw_json)#转换为json数据
data_list = do['dc']

re,正则表达式定位:

import re
ex = 'var rsa_n = "(.*?)";'
re.findall(ex,response)[0]     #正则返回的是一个列表,这里取值第1个元素即可

以上是关于爬虫小技巧总结的主要内容,如果未能解决你的问题,请参考以下文章

Python网络爬虫技巧小总结,静态动态网页轻松爬取数据

更多Requests的小技巧以及总结

Android课程---Android Studio使用小技巧:提取方法代码片段

提效小技巧——记录那些不常用的代码片段

刚入门Python的小伙伴,这是腾讯大牛工作中总结的爬虫经验!

zoho在线文档使用小技巧