深入分析微博密码加密and百万级数据采集分享(登录篇)

Posted ironmanplus

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深入分析微博密码加密and百万级数据采集分享(登录篇)相关的知识,希望对你有一定的参考价值。

一、前言

  1. 此文章主要是对微博微博关键词的检索结果进行采集,但是微博的采集需要登陆,所以此程序分为登陆程序和爬虫程序两部分;
  2. 微博要实现规模性数据采集自然少不了大量账号,这就需购买大量账号以及批量登陆,但是都买的账号都会对IP进行限制(一个ip下面最多登陆两个账号),所以无法实现批量登录,只能将采集程序与登录程序以1:1的形式部署多个节点,通过调用关键词任务分发接口来实现大量采集;
  3. 微博的关键词采集可以在weibo.com以及weibo.cn两个站点进行采集,这里主要针对weibo.com进行采集;
  4. 这篇文章复制的是我在csdn上的文章,原文链接为:https://blog.csdn.net/qq_38742052/article/details/103416912

二、登陆

     登陆主要分为两种方式:selenium+chrome以及模拟登陆

  1. selenium+chrome:这个方法比较简单,直接控制浏览器登陆就行,登陆可能会出现验证码,验证码是最普通的那种,直接调用打码平台即可;
  2. 模拟登陆:模拟登录比较麻烦,这一块会详细说,微博的登录为RSA加密登录,RSA加密原理大家可以自己百度下,这里就不赘述了,登录分为两部分,首先为预登陆,会返回加密公钥以及其他一些必要的参数,第二步把这些参数+加密通过RSA加密,公钥,验证码(如果有)请求登录链接即可成功

首先预登录,一般会在输入账号以后会触发此请求,也可能会在点击登录后触发

技术图片?

技术图片

预登陆链接为:https://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=MTMyNzg4MzQwMjE%3D&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.19)&_=1575613055938

主要参数:

技术图片技术图片?  

其中su为账号的base64加密,_为当前时间戳,其他参数为固定值

返回值:返回值分两种情况,一种有验证码,一种无验证码,当需要输入验证码时会返回pcid字段,不需要输入时不会返回,结果如下图

技术图片技术图片?

 

有用的几个参数为servertime,nonce,pubkey,rsakv,pcid(如果有)。

接下来为获取验证码,验证码链接为:"https://login.sina.com.cn/cgi/pin.php?r=86006630&s=0&p="+pcid,参数r随意,p为pcid,请求时请求头加上UA和refere,返回验证码后代用打码平台来识别验证码

最后开始重头戏,密码加密部分,首先输入账号和密码登录一次,点击登录之前先打开浏览器控制台清空所有请求,接下来观察登录过程所出发的请求

技术图片?

技术图片

技术图片?

技术图片

很明显,第二个请求为登录触发的js,把鼠标放在Initiator对应的位置就会出现这个 JS文件包含的方法和对应的路径,请求表单里面包含的参数su、nonce、rsakv与上面提到的是一致的(我的不一致时因为我两次登陆使用的不是同一个账号),sp为rsa加密后的结果,然后去sources里面找到对应路径下面的js文件,在里面搜一下这几个参数。

技术图片?

技术图片

784行这里这几个参数都出现了,而且782行是用户名的base64加密,在这里打上断点,一步步调试提取出加密js,调试的过程比较繁琐,需要耐心;还有个比较快的方法是直接用这个js文件,使用里面的sinaSSOEncoder对象进行加密,不过最后在代码中执行js文件时还是要吧里面一些没用的东西删除掉比如windows,alert等,785-790行为加密需要的一些参数,都是预登录得到的,需要注意的是servertime也是预登录返回的servertime不是当前时间,第791行的b就是加密后得到的结果,即第二步请求sp参数。

至此,所有登录需要的参数都已经得到了,带上所有参数请求(post)这个链接https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.19)获取返回的cookie就能直接登录了。

登录代码git地址:https://github.com/JetLei/MblogLoginDemo

下一篇将是微博百万数据采集架构的流程分享。

以上是关于深入分析微博密码加密and百万级数据采集分享(登录篇)的主要内容,如果未能解决你的问题,请参考以下文章

使用Python进行微博登录

Netty系列Netty百万级推送服务设计要点

MySQL 的一次百万级数据快速去重经验分享

十万级百万级数据量的Excel文件导入并写入数据库

Netty深入剖析各大组件细节/百万级性能调优/设计模式实际运用

数据库sql优化总结之2-百万级数据库优化方案+案例分析