Python爬虫工程师必备工具 Charles 的安装,以及爬取淘宝网+学UI网
Posted 梦想橡皮擦
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫工程师必备工具 Charles 的安装,以及爬取淘宝网+学UI网相关的知识,希望对你有一定的参考价值。
本篇博客为你带来第二款手机 APP 抓包软件:Charles。
前置知识
该软件一般用在 mac
电脑上(Windows 电脑也可使用),官方下载地址为:https://www.charlesproxy.com/(国内需要一些特殊的办法访问)。
在下载目录中选择你的可用版本即可,安装过程很简单,遵循下一步原则。
下载之后,从网络上寻找到了一些注册码,不注册也可以直接使用,不过软件每次使用 30 分钟,就会退出一次。
Charles Serial Keys:
Name..:TEAM MESMERiZE
Serial:FC91D362FB19D6E6CF
Name..:CRACKSurl
Serial:1959D66D1AAC0C6EA2
Name..:Charles
Serial:EBD457553EFAF1BBAC
Name..:cracksurl.com
Serial:3FE40E97FCA9E9697A
软件运行之后,界面如下所示,在前面我们已经学习了 fiddler
相关知识,下面在使用 charles
就变得非常容易了。
两种不同的视图模式
切换即可查看对应的区别,一种是树形结构状,一种是表格序列状。
Structure
视图:将网络请求按访问的域名分类;Sequence
视图:将网络请求按访问的时间排序。
接下来要做的第一件事情,就是将 Charles
的代理设置为系统代理。
点亮【Start Recoding】,浏览器中的请求就会被 Charles
捕获到。
工具栏的其它图标含义也比较清楚。
扫把
:清除捕获到的所有请求;红点/灰点
: 开启和暂停捕获请求;锁
:按下去表示捕获SSL
,即HTTPS
请求;乌龟
:是否开启限流访问;六边形
:开启或关闭断点;钢笔
:编辑会话,然后执行;刷新
:重新发一遍请求;对钩
:验证会话;板子
:工具;齿轮
:配置。
测试淘宝网
打开淘宝,随机进入一家店铺,会看到生成非常多的请求内容,然后按下键盘 Ctrl+F
进行检索,可以找到对应的数据接口。
过滤指定站点
接下来我们拿指定的网站练练手,这一次选择 学 UI 网,打开 Charles,注意软件的左下角,有一个 Filter
输入框,在其中输入 xueui.cn
域名即可。
下面在说明一下软件右侧相关功能区域说明,最重要的是 Contents
功能区,上部为请求内容,下部为响应内容,使用的时候要注意切换各种不同的视图查看。
此时如果你持续不断的翻页,就能捕获到各种翻页结果。
手机抓包配置
通过 Charles 也能实现手机抓包,使用的方式与 fiddler
基本一致。
在菜单 Proxy
中找到 Proxy Settings
,之后按照下图开启配置。
打开模拟器(真机需要参考 fiddler 文章相关配置),Wlan 代理按照下图设置,其中的 IP 地址是你电脑的 IP,端口是上文设置的端口号。
打开模拟器默认浏览器,出现证书问题,在手机浏览器中访问 http://charlesproxy.com/getssl
下载证书并安装。
此时在使用浏览器访问任意网址(重点是 HTTPS 协议站点),当 Charles 中出现对应的请求并正常解析,表示配置成功。
初学爬虫阶段掌握这些即可。
后续进阶部分,可以按照下述清单对比学习。
- 禁止缓存
- 禁用 cookies
- 远程映射
- 本地映射
- 镜像
- 重写
- black list 和 white list
- DNS 欺骗
- 自动储存
- 客户端进程
- 撰写
- 重复发包
- 验证
- Charles Publish Gist
订阅时间
今天是持续写作的第 265 / 365 天。
可以关注我,点赞我、评论我、收藏我啦。
更多精彩
以上是关于Python爬虫工程师必备工具 Charles 的安装,以及爬取淘宝网+学UI网的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫入门教程 44-100 Charles的安装与使用-手机APP爬虫部分
[Python3网络爬虫开发实战] 1.7.1-Charles的安装