顺丰:一场颠覆传统的架构升级之战
Posted dbaplus社群
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了顺丰:一场颠覆传统的架构升级之战相关的知识,希望对你有一定的参考价值。
接下来分享下在 DevOps 一体化方面所做的工作。
如图是我们 2018 年研发流程的情况,工作流中存在断点,人工干预多,研发的流畅度不好。比如申请环境需要两天资源才能到位,安全测试没有集成,发版管控严格,每周发一次等。
DevOps 一体化平台彻底改变了这些。我们主要做了如下几个方面的突破:
1)需求侧
需求管理从传统的流程层层审批的模式转化成了扁平的产品管理方式。
一开始我们的需求是要提交电子流,通过业务代表,业务主管的层层审批,然后再到我们的产品经理,然后再由产品经理分配给研发,这种方式需求到研发需要很长的时间,很难适应业务快速发展的诉求。通过产品空间,用户可以直接跟产品提需求,产品经理和业务的代表基于统一的需求看板,做需求评估和优先级排序。
2)研发侧
构建了一站式流水线平台,流水线集成了研发脚手架,CI/CD,测试能力,安全能力等,基本实现全程自动化,减少人工干预。
3)运维侧
我们构建了全景监控解决方案,以应用系统的视角,聚合了业务监控,基础监控,日志,全链路监控,用户行为监控等监控数据。我们基于应用系统,建设了四个监控大屏来帮助支撑快速定位解决问题(用户行为和业务影响,全链路监控,系统架构和报警信息,变更和发布记录)。
4)研发
研发真正也能做 Ops 的事情,所有 Ops 工具权限都可以对研发开放,只要业务研发通过 DevOps 工程师的培训,研发就可以上岗做运维。
总结下我们建设流水线的基本原则就是自动化,提升研发工作的流畅性。无异常就不触发人工流程,我们有两种情况会触发人工流程,一是需求升级决策,产品经理不知道该不该做,跟业务代表之间有不同意见,这时需要升级到中心负责人做决策;第二是研发质量出问题或者生产环境的缺陷比较多,触发质量红线,不能自动发版本,这时也需要中心负责人做决策,发版流程才能走下去。
通过一站式的 DevOps 一体化的建设,我们为研发提供了类似高铁的通行服务,研发的流程效率提升 80% 以上,大大促进研发的敏捷转型。我们的需求交付周期从之前的 1 个多月到 2 周,发版速度从原来需要 1 天到现在的 20 分钟,发版自动化率达到 100%,同时生产异常自动发现比例达到 70% 左右。
综上,我基本就讲完了我们架构升级铁三角的方案和效果,顺丰有一个非常重要的基因,就是速度非常快,我们用三年的时间,实现了整个顺丰的架构升级,我们用实际行动证明铁三角协同是非常有效的。
五、未来展望
最后讲一下未来,顺丰业务增长速度很快,同时在开篇讲到顺丰的业务不仅仅是快递和物流,顺丰其实是一家科技公司,我们对科技的追求是坚定而有力量的。
适配集团战略,在科技也提出了基建 2025 的远景目标,我们希望基于云、大数据、AI 和 5G,构建云、边、端一体化的现代基础设施。
我们从如下四个方面来牵引我们的技术追求:高可用,适应速度,安全合规和成本低廉。
以高可用为例,我们目标是核心业务系统都实现异地多活,同时我们的故障解决时间控制在分钟级别。
以适应速度为例,我们强调的是科技驱动业务成长的速度,如 5G 技术在场地的应用;研发实现业务需求的速度,如 DevOps 的升级;运维解决异常的速度,如 AIOps 的应用。
同时顺丰是非常重视用户的隐私安全的,顺丰正大力拓展国际市场,也要满足海外各国的隐私安全保护的要求,如 GDPR 等,我们正在进行隐私计算能力的研究;
在成本方面,科技致力于在绿色环保,更智能的资源调度,场地的无人化等,来整体降低集团的运营成本。
以上就是所有的分享内容。
AIOps 一场颠覆传统运维的盛筵
“颠覆传统运维。”是 OneAPM CEO 陈旭经常挂在嘴边的一句话。为什么说 AIOps 将颠覆传统运维?如何才能把人工智能和运维管理相结合并落地?
2018年5月,OneAPM 推出了全新的 AIOps 平台 Intelligence Insight(简称 I2)并正式启用 aiops.com 域名作为企业级运维产品的官方网站。I2 是一个面向企业级 IT 运维管理现状,将多年领先的 ITOM 产品研发和实施经验与人工智能技术相结合,服务于 IT 和业务部门的全新智能运维管理平台。陈旭相信 I2 的发布将开启人工智能技术与传统运维碰撞颠覆的新时代。
以下是陈旭对 AIOps 的一些见解和分享。
AIOps 这个话题近两年开始在运维圈子里面火了起来。一夜间传统和新兴的运维管理软件供应商,IT 运维系统开发商,大数据厂商,人工智能算法提供商,还有 BAT,大家都在谈论这个话题。大有“谈运维不提 AI(人工智能)就有些落伍”之势。有人认为 AIOps 是一个运维数据集中存储和展示的平台,有人认为 AIOps 是一个大数据分析平台,有人认为 AIOps 是传统的一体化运维平台,也有不少运维大咖认为 AIOps 不过就是IT运维领域一个新的炒作点。我却认为 AIOps 是一场颠覆传统运维的盛筵。它更像是一只运维领域里面的灰犀牛,从远方奔腾而来,开始所有运维厂商都不觉得威胁很大,但是当它冲到近前,才发现势不可挡。读者可能认为这是在耸人听闻,请容我细细道来。
我们先来简单看一下 AIOps 的概念。AIOps 是由 Gartner 定义的 ITOM(IT Operations Management,IT 运维管理)新的领域。如下图所示,AIOps 利用大数据和机器学习技术,实现海量数据的异常检测和多维度关联分析,它将增强或部分取代 ITOM 领域的三个重要能力,即监测,服务管理和自动化,进一步帮助 IT 运维人员准确甄别系统异常,快速定位故障根因,并对潜在系统运行风险进行预警,以实现 IT 和业务的持续洞察和改进。
其次,AIOps 与传统运维工具相比较,至少具有三大杀手锏。
-
一是,传统运维工具一个最大的问题就是运维指标采集维度过于单一,运维人员在使用传统运维工具进行故障诊断时,要同时从多种监控工具中得到不同维度的运维指标,然后再把这些数据在大脑里面相互关联并根据以往运维经验进行关联分析,以期能找到故障的真正原因。但是,AIOps 产品则完全区别于传统运维工具的数据使用方式,AIOps 产品会在底层通过统一的大数据平台把各类运维指标进行汇聚和加工,将性能指标、组件指标、网络指标、事件、告警、日志、工单等 IT 数据在统一的视图上进行关联展现,从而大大减少了运维人员的故障诊断时间,并提升了运维人员的故障诊断准确性。
-
二是,传统运维工具由于体系架构比较陈旧、采集数据总量和维度又都相对有限,无法应用当下最先进的机器学习或者人工智能算法来快速诊断系统故障。而近两年才发展起来的 AIOps 平台则明显架构更加先进、一个平台可以很容易得汇聚海量、多维度的IT数据,能够接入多种机器学习和智能分析算法,通过对历史数据的训练,针对实时数据进行实时的异常检测、异常定位、根因分析、容量预测等,从而极大幅的降低现场故障处理时间,提升运维服务质量和最终用户体验。
-
三是,一个最让甲方运维领导头痛的事就是,由于传统运维工具通常由不同厂商提供,这就导致了甲方需要准备很多运维工程师在现场来使用不同厂商的运维产品做 IT 支撑保障。一旦 IT 系统发生故障,一个典型的场景就是,使用多个运维产品的工程师们聚在一起开会讨论,但是由于代表的各自利益不同,不同厂商运维人员现场开撕的情况比比皆是,实在令人无奈!这直接导致了传统的中大型企业日常需要大量的运维工程师驻场工作,必然会产生繁杂的现场管理矛盾,而且随着 IT 技术人员薪酬的持续攀升,运维驻场人员越来越稀缺和昂贵,IT 运维成本随之大幅增加。AIOps 平台则显著区别于传统运维工具,它完全不需要大量的运维人员。 平台自身可以采集多维度、海量的IT数据,只要有少量的熟悉 AIOps 产品的运维工程师即可实现中大型企业的日常 IT 支撑保障,由于 AIOps 将海量事件进行了聚合汇总分析,只产生少量的准确告警,有利于现场人员更加快速高效的处理现场故障,并支持将故障处理方法固化在知识库系统,以便于向更加智能的自动化运维演进。
综上所述,AIOps 的确是一场对于传统运维工具的颠覆革命,每个企业都应该从现在开始,关注并尝试使用智能运维平台。
OneAPM 全新推出新一代 AIOps 平台 I2,欢迎您随时联系我们,即刻开启贵公司的智能运维之旅。点击进入 AIOps 官网了解更多信息。
来源:http://blog.oneapm.com/apm-tech/813.html
以上是关于顺丰:一场颠覆传统的架构升级之战的主要内容,如果未能解决你的问题,请参考以下文章
颠覆想象的商业智能报表软件之Smartbi电子表格(功能解读)