企鹅电竞登录鉴权系统架构与核心数据热备容灾方案
Posted 恋喵大鲤鱼
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了企鹅电竞登录鉴权系统架构与核心数据热备容灾方案相关的知识,希望对你有一定的参考价值。
文章目录
0.前言
企鹅电竞登录鉴权系统是企鹅电竞电竞所有写请求的前置关键路径,需要具备高可靠性。其核心存储依靠 CMEM,为保证服务的稳定运行,搭建一套同构 CMEM 存储,热备 Login 数据,在 CMEM 发生存储或网络故障时保证登录鉴权服务正常运行。
1.术语说明
术语 | 说明 |
---|---|
UID | 企鹅电竞用户ID |
UIN | QQ号 |
2.登录鉴权系统架构
登录鉴权系统(pgg_login_mt_svr)承载的功能主要有:登录、鉴权、创建或获取 UID、创建或获取3T帐号、帐号转换、WXToken 管理、获取或更新sina微博token等功能。其核心功能为登录和鉴权。
系统功能架构如下图:
3.登录鉴权关键路径梳理与优化
其中红色为关键路径节点,绿色为非关键路径节点。
登录路径:
鉴权路径:
为降低登录鉴权失败率,减少与其它业务模块耦合度,保证Login服务稳定可靠运行,故对原关键路径节点做如下优化:
节点名称 | 节点类型 | 优化措施 | 业务影响 |
---|---|---|---|
0x711鉴权 | OIDB服务 | 外部模块,暂不优化 | QQ用户登录鉴权失败,无法登录、送礼等 |
WX Token换取与校验 | WX登录服务 | 外部模块,暂不优化 | WX用户登录鉴权失败,无法登录、送礼等 |
获取或创建UID | CMEM存储 | 热备容灾 | 电竞用户登录鉴权失败,无法登录、送礼等 |
初始化用户资料 | CMEM存储 | 变为非关键路径 | 电竞APP登录页暂时性无法获取用户资料,需客户端做容错处理。用户二次登录或鉴权时,如果未初始化用户资料,会重新初始化。 |
检查用户是否被禁 | CMEM存储 | 变为非关键路径 | 上游业务暂时性无法得知用户是否被禁。 |
4.核心数据热备容灾
4.1 需求背景
目前企鹅电竞用户登录有三种模式:
- QQ uin+skey
- QQ appid+openeid+token
- WX appid+openeid+token
Login系统需要维护QQ与WX到电竞帐号UID的映射关系。如下图所示:
依托QQ与WX登录体系,用户在登录鉴权成功后,需要根据QQ(CommID)或WX(OpenID)换取电竞侧用户ID。Login系统因此需要建立维护QQ(CommID)与WX(OpenID)与UID的映射存储,用于创建新用户ID或获取旧用户ID。映射关系数据存放在CMEM中,一旦CMEM数据出现问题,会导致用户无法登录与鉴权,进而影响用户在电竞侧的所有写操作,比如送礼、弹幕等。
为了提高登录鉴权服务的可靠性,搭建一套同构CMEM存储,热备Login数据,在CMEM发生存储或网络故障时保证服务正常运行。
4.2 其它系统容灾方案
4.2.1 NOW 直播评论容灾架构
NOW 直播评论服务容灾采用读写分离异地部署的方案,读写 svr 访问主 CKV,只读 svr 访问备份 CKV,数据热备由同步中心完成。对外同时提供只读 L5 与读写 L5。
方案优缺点如下:
优点:
(1)数据备份交由同步中心完成,依靠DB层对账功能,有效保证备份数据的完整性和一致性;
(2)读服务L5采用就近寻址,在主CKV不可用时,自动访问只读svr,完成自动切换;
(3)达到存储层和服务层的双层容灾。
缺点:主 CKV 出现故障,写入将失败,不能达到写容灾。
4.2.2 QZone核心数据容灾架构
QZone 热备容灾方案与 NOW 直播类似,读写分离,异地部署,接入同步同步中心完成数据异地热备。
4.3 核心数据容灾方案
4.3.1 方案一
参考借鉴 NOW 直播容灾方案,电竞在不实现读写分离的情况下,异地部署,热备容灾。架构如下:
在极端情况下,当login_svr或主CMEM出现故障导致服务不可用时,紧急切换至异地服务,保证服务正常运行。待故障恢复后,完成备份CMEM的增量数据同步至主CMEM,再统一切回主login_svr。
方案优点:
(1)login_svr跨域部署,login数据跨域备份,达到服务层和存储层的双层容灾;
(2)备份login_svr提供写入功能,达到读写容灾。
方案缺点:
(1)故障发生后需人工介入,完成切换;
(2)备份login_svr大部分时间闲置,浪费机器资源。
4.3.2 方案二
考虑到Login数据的重要性,主CMEM由svr写入,同步中心只负责热备数据。在主CMEM发生故障时,写入将会失败,读失败则自动切换到热备CMEM进行重试,保证现网99%的请求
正常。
架构如下:
方案优点:
(1)读失败二次重试,保证现网旧用户在主CMEM发生故障时仍可正常登录访问;
(2)没有复杂的检测错误、统一自动切换逻辑,实现相对简单。最终采用此方案。
方案缺点:
(1)只达到读容灾,未达到写容灾。
4.3.3 方案三
在方案二的基础上,如果要达到读写容灾,则需要主CMEM发生故障时,服务主动发现故障,统一自动切换至备份CMEM进行读写。架构如下:
其中故障发现与自动切换逻辑实现如下:
login_svr 每分钟将读写主CMEM失败率上报至监控svr用于统计主CMEM访问状态。每当请求到来时,每分钟进行一次探测是否进行切换,如果满足预设条件,则主动切换至备份CMEM进行读写。
方案优点:
(1)主动发现故障,统一自动切换。
(2)达到读写容灾;
方案缺点:
(1)容灾实现依赖监控svr,增加耦合;
(2)实现较为复杂。
5.数据一致性保障
Login 核心数据交由同步中心写入备份 CMEM,鉴于不信任原则,电竞侧以 UID 为 Key,定期全量扫面备份 CMEM,与主 CMEM 比对,完成数据对账,保证备份 CMEM 与主 CMEM 的一致性。
以上是关于企鹅电竞登录鉴权系统架构与核心数据热备容灾方案的主要内容,如果未能解决你的问题,请参考以下文章