爬虫小技巧总结

Posted 2022-01-02 向阳-Y.

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫小技巧总结相关的知识，希望对你有一定的参考价值。

定位技巧篇

etree定位：

from lxml import etree
tree = etree.html(response)
public_key = tree.xpath('//input[@id="e"]/@value')[0]

遇到字典数据格式可以转成json，并一层层剥离进行定位：

import json
do=json.loads(raw_json)#转换为json数据
data_list=do['data']['response']['videos']

遇到不干净的字典数据可以先进行整理，并一层层剥离

KZLoginHandler.jsonpCallbackKongZ(“dc”:“3D819DDC47FD044C38DB02DA22DC1F2C”,“kzmsg”:"",“service”:“https://passport.kongzhong.com/”,“state”:“0”)

import re
import json
re = 'KZLoginHandler.jsonpCallbackKongZ\\((.*?)\\)'
raw_json = re.findall(re.raw_json)
do=json.loads(raw_json)#转换为json数据
data_list = do['dc']

re，正则表达式定位：

import re
ex = 'var rsa_n = "(.*?)";'
re.findall(ex,response)[0]     #正则返回的是一个列表，这里取值第1个元素即可

以上是关于爬虫小技巧总结的主要内容，如果未能解决你的问题，请参考以下文章

Python网络爬虫技巧小总结，静态动态网页轻松爬取数据

更多Requests的小技巧以及总结

Android课程---Android Studio使用小技巧：提取方法代码片段

提效小技巧——记录那些不常用的代码片段

刚入门Python的小伙伴，这是腾讯大牛工作中总结的爬虫经验！

zoho在线文档使用小技巧