爬虫小技巧总结
Posted 向阳-Y.
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫小技巧总结相关的知识,希望对你有一定的参考价值。
定位技巧篇
etree定位:
from lxml import etree
tree = etree.html(response)
public_key = tree.xpath('//input[@id="e"]/@value')[0]
遇到字典数据格式可以转成json,并一层层剥离进行定位:
import json
do=json.loads(raw_json)#转换为json数据
data_list=do['data']['response']['videos']
遇到不干净的字典数据可以先进行整理,并一层层剥离
KZLoginHandler.jsonpCallbackKongZ(“dc”:“3D819DDC47FD044C38DB02DA22DC1F2C”,“kzmsg”:"",“service”:“https://passport.kongzhong.com/”,“state”:“0”)
import re
import json
re = 'KZLoginHandler.jsonpCallbackKongZ\\((.*?)\\)'
raw_json = re.findall(re.raw_json)
do=json.loads(raw_json)#转换为json数据
data_list = do['dc']
re,正则表达式定位:
import re
ex = 'var rsa_n = "(.*?)";'
re.findall(ex,response)[0] #正则返回的是一个列表,这里取值第1个元素即可
以上是关于爬虫小技巧总结的主要内容,如果未能解决你的问题,请参考以下文章
Android课程---Android Studio使用小技巧:提取方法代码片段