华为云春节前夕遭连续偷袭!密谋3个月,专挑凌晨断网

Posted QbitAl

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了华为云春节前夕遭连续偷袭!密谋3个月,专挑凌晨断网相关的知识,希望对你有一定的参考价值。

杨净 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

“把上海、广州两个站点网络全断掉!”

“趁他们晚饭不注意的时候,注入攻击!”

“还要在凌晨3点大家睡觉的时候,再攻击一波!”

……

这是华为云最近破获的一次“阴谋”,时间就在春节前夕

之所以这波攻击不容小觑,是因为如果阴谋一旦得逞,华为云内部系统的运行将面临严重的后果。

1个月发动组合攻击20余次

攻击者的计划,在3个月前就已经开始。

经过密谋协商,他们决定在春节前后“干票大的”,近1个月来发动组合攻击20余次

动机很简单:春节期间,各种短视频、社交媒体,包括自拍软件等应用流量激增,理论上是多数云服务厂商流量最高、最易出故障的时候。

一旦攻击成功,就会有大量互联网服务出现不稳定、甚至影响更大的情况。

尤其像除夕抢红包这类活动,8点到凌晨1点正是流量峰值期,故障多一秒钟用户都无法忍受。

所幸,这次攻击结果并未达到目的。

华为云反应非常迅速,将排查问题的时间限制在3分钟内、并利用5分钟进行修复,最终在8分钟内就处理好了系统故障,全程没有影响到云上业务的运行。

不免让人好奇,为何华为云会任由这些攻击反复发动?

毕竟对于华为云来说,这群攻击者已经不是“初次来犯”。

手段从人为攻击到利用系统“自动”攻击,类型从断网、故障注入到各种最新的攻击“武器”,都被他们尝试过。

但即使面对未知攻击,华为云却依旧能迅速处理。

不止这类春节前夕的攻击,面对各种类型的攻击,他们都能及时察觉系统异常、迅速定位并解决问题,将整个过程压缩到10分钟内

而这又是为何?

随时待命的“特战队”

原来,这个秘密谋划三个月、攻击华为云上千次的攻击者团队,竟是华为云内部的一支“秘密团队”,名曰“蓝军”

他们不停地设计最新的攻击弹药,随时对华为云系统进行突袭。

至于作为防御方的红军团队,则是随时处于待命状态,一旦察觉蓝军攻击便第一时间进行修复。

两个团队之间没有任何沟通,什么时候触发攻击也不可知。

除了人为攻击,蓝军甚至还用上了混沌工程,系统会随机、自动地去攻击红军维护的系统,近一年攻击总数多达2000+次。

而在这类攻击背后,所有的动作都只有一个目的——

提升华为云系统的稳定性和应急能力。

即使在春节,系统的维护和防御也不会停止:华为云专门成立了一支“特战队”。

“特战队”的规模上百人,都是已经应对过无数次攻击、“身经百战”的全栈工程师。

从现在一直到元宵节,“特战队”队员们按三班倒的形式,7×24小时全职投入春节运维保障。

这样一来,即使攻击者想“趁虚而入”,从流程上来说也不会太过轻松。

但这还仅仅是解答了第一个疑问。

为何华为云面临攻击,能迅速稳定地处理整个流程?

故障率保持在0.01%以内

可以说,这次蓝军的攻击,正好撞在了早有准备的红军“枪口”上。

早在三个月前也就是11月5日,红军就已经开始排查系统风险,并通过流量预估来进一步降低故障发生率。

事实上,这已经不是传统意义上的运维团队了。

无论是日常排除风险故障、维持系统稳定的红军,还是春节值守的“特战队”,都来自华为云内部一只“训练有素”的团队——SRE

SRE这个概念,最早定义是“用软件工程的方法从事运维活动”。在华为云这里还要更精细一点,诞生出了“确定性”的方法论,来达成“高可用”的目标。

一言以蔽之,就是在设计产品时就考虑高可用的架构、并将风险控制做到动态清零、再加上智能化运维平台,来控制不确定性的风险,达成确定性的风控质量。

SRE团队自主研发了一个智能运维平台,用数据驱动的方法,将运维过程变得标准化、自动化。具体而言,这个平台不仅能实时记录运维数据,还能度量全流程各个环节的质量,真正做到缩短问题发现、故障定位和修复的时间。

如今,平台的监控指标数量已经达到160亿/小时,运维系统用户数达到10000+,变更频率每分钟2次,兼顾智能运维和日志记录等功能。

在智能运维平台以外,SRE团队还会借助流量预估等工作,来进一步提升系统的可用性,降低风险发生的概率。

具体来说,是通过特定的算法模型,结合指标对资源使用情况进行预估。

在华为云背后,有一个博士军团,其中有专门的算法创新实验室,研究人员会协助流量预估人员进行算法调优,像近期实验室一篇关于用强化学习求解虚拟机调度问题的论文,已经被顶级期刊Pattern Recognition接收。

同时,还会借助云操作系统和全域调度等技术,高效“压榨”并分配有限的流量资源,包括采用“瑶光”智慧云脑,负责整个云的资源分配、部署、调动和供给,以及结合全域调度等技术,进一步精细化资源的利用效率等。

目前,华为云系统的故障发生率也被压制在0.01%以下,即一年故障发生的时间保持在53分钟以内。

数字世界的春节保卫战

事实上,华为云今年投入春节保卫战的人力,前后已经接近1000人次

其中整个SRE团队几百人,更是一直处于“全员在线”的备战状态。

某种程度上,他们与传统行业里的员工一样,是保障我们生活便利的春节值守人。

只不过维度从线下的物理世界转变到了线上的数字世界

在运维行业干了20多年的张智认为,春节的味道其实并没有变,只是换了个地方过年。

华为云SRE专家张智

以前春节主要是在物理世界,但现在数字世界的春节可能比物理世界更热闹。现在我在数字世界上,也可以跟朋友一起过春节、抢红包、刷视频。

见证过不少同行灾难发生的他,认为这份值守不可或缺:

你不知道风险什么时候会发生。但SRE可以真正降低遇到风险的可能性。

从其他岗位转到SRE的石胜兵,虽然调侃了一下这个身份在春节中的特殊性:

华为云SRE专家石胜兵

SRE算是华为云背后的角色。我们其实很少在像春节这样的节日中“露面”,因为真出现的时候,往往都“不是一些好事”。

但这份工作却让他感受到“新的春天”

我在华为工作了二十年,来这个团队一年半。原以为上个岗位就是职业生涯的最后一个,现在感觉新的春天到来。

一方面体现在SRE本身,它是华为云最年轻的团队。

另一方面,随着行业快速成长,年轻的SRE正成为云服务质量保障的中坚力量。

其实这种对数字生活的保障,也并非孤例。

平时出行的电子公交卡、一键打车,吃饭时的数字支付、生病时的在线预约,再到网购和线上游戏聚会,回想起来我们已经离不开数字化的生活。

而若再往前看一些,从最早提出的“智慧地球”,到后来AI发展带起的“全真互联网”,再到现在的“元宇宙”,行业热词一直与数字世界息息相关。

具体到技术上,包括这几年“数字人”的爆发、随着AI发展再度被带起来的XR设备也在说明,我们的生活确实正不知不觉地与数字世界发生融合。

在数字世界中,云服务反而从一种新兴的技术,成为了不可或缺的基础设施。

换而言之,我们的一切互联网服务和数字产品,最终都由云带来,并运行在云上,甚至我们在成为数字虚拟世界的一份子时,本身也会被加载到云中。

传统物理世界的水电、桥路和房子,被还原到数字世界中去后,也不过是存储在云上的一些数据。

在这种趋势之下,云服务的稳定性就变得和数字世界中的基建稳定性一样重要,反映到春节中则更是如此。

如今的特殊时期,我们反而比以往更依赖于数字春节的保障。

而这一次,华为云的攻防演练和红蓝对抗披露,不仅是一次先进经验和机制的分享,更提醒我们关注日益依赖的「数字世界的基础设施」。

以上是关于华为云春节前夕遭连续偷袭!密谋3个月,专挑凌晨断网的主要内容,如果未能解决你的问题,请参考以下文章

各大厂商云参数对比,我推荐华为云

各大厂商云参数对比,我推荐华为云

欧美日频繁出现断网故障,他们已对拆除华为的设备肠子都悔青了

断供前夕,华为“开发者大会”迎来转机?

春节档电影全部撤档;华为开发者大会2020因疫情延期至3月 | 晚报

连续四年第一!华为云FusionAccess夺桌面云市场桂冠