过亿云资源运维管控难?华为云CloudMap带你喝着咖啡做运维

Posted 华为云开发者社区

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了过亿云资源运维管控难?华为云CloudMap带你喝着咖啡做运维相关的知识,希望对你有一定的参考价值。

摘要:华为云站点数字化平台CloudMap携手华为云图引擎GES打造云服务全栈拓扑,网络流量路径和云服务动态依赖等空间关系数据,支撑现网运行态风险识别和分钟级定位定界,构建业界领先的数字化能力。

本文分享自华为云社区《构建站点数字孪生,支撑确定性运维:华为云九洲云图CloudMap》,作者:HWCloudAI 。

随着云计算产业的蓬勃发展,站点数字化进程方兴未艾,如何管理云站点中数目众多的云资源和日益复杂的关系数据,通过数字化技术提前识别和发现现网风险,保证现网不出重大事故成为当前SRE面临的巨大挑战。面对海量业务和运维数据,如何构建站点级数字孪生平台,让数据发挥自身价值为SRE所用,是迈入DataOps的我们亟需解决的问题。为此,华为云站点数字化平台CloudMap(以下简称“九洲平台CloudMap”)携手华为云图引擎GES打造云服务全栈拓扑,网络流量路径和云服务动态依赖等空间关系数据,支撑现网运行态风险识别和分钟级定位定界,构建业界领先的数字化能力。

1、传统云资源运维面临的挑战

传统的云资源的运维存在诸多问题:对风险的管控仍然依赖人工而不是工具系统,风火水电基础设施在遇到问题时因无法定位影响只能全局管控,使影响面无故扩大。由于缺乏云资源的拓扑信息,部分资源依赖获取不到会导致许多问题的搁置……提升云资源的自动化运维能力,面临诸多挑战:

缺乏拓扑信息,依赖分析难

不同的云资源(如租户信息、云服务信息、机柜机房信息)来源于不同的系统中,从软件层面的云服务,到硬件层面的机房机柜等,都可能出现各种各样的问题,并且不同的云服务之间存在着一些依赖关系,一个云服务出问题可能影响其他云服务。

自动化程度低,问题定位依赖人工

即使拥有这些依赖关系并存储在配置管理数据库中,传统运维手段也只能定位问题节点,对于问题的爆炸半径(如问题节点依赖的机柜机房信息、或者受到其依赖的其他云服务)往往要依赖手工定位。

运维诉求杂,查询类型多

此外运维例行维护、故障定位需要进行类型繁多的查询,既需要有实时性要求的单点深度链路查询支撑运维,也需要全局类链路统计等偏离线任务的查询支撑下游任务。

2、九洲平台CloudMap的解决方案

图 1 九洲平台CloudMap数据概览

九洲平台CloudMap携手华为云图引擎GES完成了亿级空间数据构建,通过租户资源拓扑构建、网络流量路径分析、服务动态依赖发现打造全链路可视能力,构筑基于站点视角的数字化平台,实现分钟级问题定界。

图 2 云上资源拓扑关系示意图

2.1 租户资源拓扑构建

租户资源拓扑是将实体抽象成与其大小、形状无关的“点”,而把连接实体的线路抽象成“线”。CloudMap通过整合各类系统中的数据信息,将华为云的租户与其相关租赁的物理机、虚拟机进行关系的构建并存储到华为云图引擎GES中,构建租户资源拓扑,使得依赖分析成为可能。在租户出现问题时第一时间能够通过“线”溯源回对应的租赁机器,并快速定位和解决其中的问题。

2.2 网络流量路径分析

华为云作为国内TOP云服务厂商,每日网络流量数据是比较庞大的,对于网络流量路径的管理和可视就如百度地图之于道路交通一样重要。而在运维场景下,掌握了网络流量路径可以进一步的补充由基础设施、基础服务到高阶服务之间的链路关系。CloudMap通过将请求流量进行监控,绘制出一个整体、清晰的物理和虚拟网络路径,可以准确截断问题的蔓延,提高自动化运维水平。

2.3 服务动态依赖发现

服务依赖发现是发现分布式软件系统中各组件依赖关系的过程,随着华为云的规模扩张,服务往往会被拆分为多个子服务。分布式软件系统通过不同子服务之间的组合,提供了稳定多样化的服务。与此同时,由于这些错综复杂的依赖关系,也伴随着很多连锁反应。其中最经典的案例就是由于单个服务的故障导致其在分布式软件系统中快速传播,导致大量的服务失效。在华为云的日常运维中,掌握各个服务的动态依赖是让云稳定可靠不可或缺的一项技术,它关系到了能否快速的找到保障服务的各个关联服务,避免其他服务引火烧身。CloudMap通过对服务间依赖的动态探测,构造全链路微服务依赖关系;同时借助GES的多跳查询能力,及时定位单服务问题的影响范围,避免大量服务失效,解决爆炸半径求解难的问题。

图 3 服务资源视图查询示例

3、华为云图引擎GES助力CloudMap高效检索图数据

从数据入库到计算查询,华为云图引擎GES为九洲平台CloudMap的存储、查询和分析提供了一站式解决方案。

3.1 图数据建模

  1. 在复杂、庞大数据量的背景下很难使用传统的结构化数据库进行数据建模,图引擎帮助快速构建点到点、点到边之间的数据建模;
  2. 从基础设施到云服务,使用图引擎构建全栈元数据,创建了过亿的点边关系,同时这些点、边支持增加属性机制,让每个点、边都能存储对应的属性;
  3. 数亿级属性数据实现小时级数据导入能力,保证了数据的时效性。

图 4 简化后的元数据截选

3.2 多样接口能力

华为云图引擎GES提供了丰富的API接口查询能力,CloudMap通过调用GES API,实现接口化的查询逻辑。目前CloudMap有数十个查询请求通过GES的Cypher、PipelineQuery、PathQuery等接口完成,这些请求响应和返回格式统一,便于处理,简化了CloudMap的处理逻辑,降低了运维诉求杂,查询类型多带来的业务开发成本。查询请求的高效响应,让长链路的空间关系数据得以快速查询并消费。

3.3 计算分析

  • 秒级响应能力:在图引擎的强大算力支持下,九洲平台CloudMap实现了多点、多跳查询的能力,在复杂的空间关系中快速、准确的找到需要的数据及关系。其中利用业界领先的技术,图引擎将大量6-8跳查询的响应控制在秒级,使得CloudMap进行实时故障影响面分析、设备依赖关系查询成为可能;
  • 离线计算能力:在对于需要庞大计算量、大量数据的分析型任务中,图引擎提供了异步任务能力,通过提前执行离线查询/算法任务并缓存结果,保证了结果获取的效率,支撑了CloudMap向下游应用提供数据;
  • 强大索引机制:图引擎支持像关系型数据库一样的索引构建能力,可以基于label、属性等进行索引创建,实现全图属性过滤任务的快速响应;
  • 稳定可靠的查询能力:由于数据量大、查询链路长的原因,在查询过程中往往会使用大量内存,图引擎通过内存管理技术控制总内存使用量,让查询稳定可靠。

图 5 CloudMap数据示例

4、九洲平台CloudMap的应用

作为站点数字化平台,九洲平台CloudMap在图引擎GES上搭建运维图谱图模型,建立站点空间数据关系。通过叠加空间数据和运维作业数据,从而打破数据孤岛、消除数据断裂点,形成运维知识图谱,释放数据价值,助力故障快速定位定界:

  • 空间数据:通过提供华为云站点三类空间数据(租户资源拓扑、网络流量路径与服务架构依赖),提供从租户资源实例、物理网络到基础设施风火水电等全局视野,支撑快速识别服务影响与租户影响范围;
  • 知识图谱:基于以上空间数据,结合告警、变更、监控与事件等核心运维数据,通过整合整理,再提取出故障线索,形成发现即定界能力,提升黑盒和自愈恢复触达效率。
  • 专家经验:在各个运维场景下不断固化专家经验并进行实践和沉淀,使得专家经验真正使能运维数据。

截止目前,CloudMap空间关系数据已覆盖30+云服务,在分布式缓存服务DCS、云数据库服务RDS、文档数据库服务DDS和大数据服务MRS等高阶服务故障快恢场景应用落地。除此之外,CloudMap还为站点风控、变更风控、故障快恢等多个运维场景提供了数据底座和计算能力,极大提升了现网运维效率,为华为云稳定可靠,为SRE确定性运维而持续努力。

 

点击关注,第一时间了解华为云新鲜技术~

什么是网络安全?华为云学院带你一同探索!

大家好!本次我们首先从什么是网络安全开始,为大家介绍常见的网络安全威胁,帮助大家理解信息安全纵深防御体系,为实现网络安全奠定坚实的基础。而后我们将基于信息安全纵深防御体系,重点讲解网络边界安全和应用安全两个核心部分。最后我们将聚焦在安全管控及趋势分析领域,讨论如何将被动的安全防御工作升级到主动的分析与管控,做到未雨绸缪,让各种隐患与***化解于无形之中。本次课程将给大家提供针对企业网络安全,尤其是下一代网络安全的全面体验与深入理解。

下面就由我带领大家展开我们本次的网络安全学习之旅。如果希望实现网络安全,就要直面各种网络威胁。当下我们每天的生活从微信沟通到智能穿戴设备,从滴滴出行到共享单车,互联网已经深入我们生活的方方面面,但是各类应用的蓬勃发展带来的一系列安全隐患,让网络安全事件已然成为当今国际世界最为关注的热门话题之一。

例如Yahoo曾在2016年共计有超过15亿用户信息遭泄露,堪称数据泄露之最。同时掉邮件邮件诈骗邮件泄密等问题频发。2016年由***曝出的总统候选人邮件门事件,就间接导致了候选人在美国大选中的失败。这次***正是利用了私人服务器上所存在的系统漏洞和软件漏洞,最终成功地窃取了政府的机密邮件。2017年5月,windows敲诈勒索病毒在全球大范围蔓延,感染用户主要集中在企业高校等内网环境,中招系统的文档图片资料等常见文件都会被病毒加密,病毒使用啊C非对称算法,没有私钥就无法解密文件,进而向用户勒索高额比特币赎金!层出不穷的网络安全事件让我们不禁感慨,网络安全从未像今天这样距离我们如此之近,而这些案例对于当今网络中的安全威胁来说也只是冰山一角。***针对用户应用程序计算机以及网络四种类型展开了全方位的***。

接下来让我们将这四种类型一一道来暴力破解社交工程钓鱼***等都是典型的针对用户行为的***手段,往往利用的是广大用户安全意识不足,对于账号密码等机密信息未加保护,以及未执行安全的终端操作等漏洞。此种***的特点在于技术手段简单,***类型多样,并且***范围涵盖所有信息系统使用者,因此被***者所钟爱通常是他们进行***的首选方案。从网上购物的钓鱼网站,到撞库***的用户密码泄露,再到电信诈骗的层出不穷,这些都是针对用户***的典型案例。当针对用户行为的***无效时,***者接下来会尝试针对应用程序的***,例如注入***和网页土改,其过程是***者针对应用程序的安全漏洞,窃取应用程序中的数据,利用应用程序进行恶意操作。
例如circle注入***和open SS心脏出血***。我们每天收到的大量垃圾邮件以及许多电商客户信息泄露,都是针对应用程序***的典型案例。而针对计算机主机的***,比如说特洛伊***系统漏洞以及计算机病毒,此种***的特点在于其过程是***者需要针对不同类型的操作系统,利用超系统本身的漏洞和安全隐患,采用诸如***蠕虫病毒等专业的***工具来实现控制操系统或破坏操作系统的目的。熊猫烧香,灰鸽子和勒索病毒,这些耳熟能详的名字都是针对计算机***的典型案例。

当然***者还有最后的一招杀手锏,例如拒绝服务***和中间人***,这些是针对网络的***,其过程是***者针对协议本身的安全缺陷,来达到窃取网络数据,中断正常服务的目的。例如tcp协议,sen本身特性所采用的洪水淹没***。

通过对常见网络安全威胁的分析,相信大家对技术层面的安全有了一个全面的了解。但是安全不是单纯的技术问题,我们需要从整体来看待,所谓没有规矩不成方圆,我们也需要一套全面的信息安全管理体系。I so27000便是一种获得国际广泛认可的信息安全管理体系。它是一种典型的基于风险管理的管理体系,周期性的通过风险评估,内部审核,有效性测量管理评审,确保IS max进入良性循环,实现自我改进。回顾近几年发生的重大网络安全事件,我们不难发现,***关注的不仅仅是各种核心数据的窃取,关键性基础设施,政府金融机构能源行业都成为了******的新目标。同时我们也能看出有国家支持的政治***行动越来越多,网络安全上升到国家高度已成定局。全球信息化发达国家纷纷推出本国的安全法律法规和相关的安全管理机构。信息安全管理体系与标准是企业安全的高层建筑,他们更多的是从管理层面高屋建瓴的整体规划。在我们对管理体系和标准理解之后,相信大家已经开始思考如何在企业中规划和实现安全方案。

那么下面让我们全面了解一下信息安全纵深防御体系,企业信息安全的最佳实践解决方案。我们将该体系分为五个层级。首先是物理层,未曾包含了通信线路,物理硬件设备,机房机架等设施,保证物理层的安全,就需要保证通信线路的可靠性,设备更换拆卸时的安全性以及应对一系列自然灾害的能力。物理层安全是实现所有安全的基础,不容轻视。在物理层安全的基础之上,是网络层安全,一个全面的网络,从安全解决方案需要综合考虑网络层的×××访问控制数据传输,远程接入***,网络病毒等一系列安全因素。网络层安全是实现数据和信息安全传输的最关键一环,也是需要我们在规划时综合考量的部分。当数据通过网络层传输进入操作系统后,安全地实现就集中在操作系统层。针对windows用Unix等操作系统的漏洞和缺陷,如何规划身份认证,访问控制漏洞侦测与声音。操作系统层安全是实现数据存储和处理的关键节点,我们更需要加固系统,防患于未然。除了前面提到三个层次,当前网络环境中威胁最大的就要数应用层安全了。应用层安全主要围绕着各种应用程序与时俱进展开,聚焦在外包服务安全邮件系统安全自开发应用安全方面,其核心是抵御病毒跨站脚本数据篡改等恶意***。随着移动互联网的高速发展,应用层安全的重要性愈发凸显。最后,信息安全并非单纯的技术解决方案,一个企业对全网的管控同样很重要。在管理层面,我们的安全工作主要体现在制定严格的安全管理制度,明确安全职责划分以及人员角色的合理配置。这些工作都可以在很大程度上降低其他层次的安全隐患。全面的防御与规划,才能使我们的企业拥有符合实际需求的信息安全纵深防御体系。到此我们从网络威胁的现状分析开始,全面了解了信息安全管理体系与安全标准,并解释了安全纵深防御体系对企业安全的重要性。大家在收获到知识的同时,也请进一步的思索,我们如何通过相关安全产品实现各个层级的安全解决方案。面对下一代的网络技术发展,我们又将如何为其保驾护航?这些答案将在后续的课程中为大家解答。

以上内容摘自《云时代下的网络安全》,出自华为云学院(https://edu.huaweicloud.com/

以上是关于过亿云资源运维管控难?华为云CloudMap带你喝着咖啡做运维的主要内容,如果未能解决你的问题,请参考以下文章

领取20万字《Kafka运维与实战宝典》PDF文档

GOPS2018 | 华为云运维最佳CP引领AIOps新风向

DNS的原理介绍

图解KafkaConsumer SyncGroupRequest请求流程

云讲堂 | 5期视频带你全面了解滴滴Logi-KafkaManager

Hadoop Spark太重,esProc SPL很轻