京东蚂蚁新浪工行等面向云原生的运维数智化转型实践丨DAMS峰会

Posted 铭毅天下

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了京东蚂蚁新浪工行等面向云原生的运维数智化转型实践丨DAMS峰会相关的知识,希望对你有一定的参考价值。

云原生浪潮的来势汹汹,势必让企业的运维模式、运维工具、运维团队构建等发生巨大变化,不得不面临复杂的转型和改造,企业如何提前迎战,并借助云原生带来的便捷和弹性,推动自身的数智化转型?为此,第八届DAMS中国数据智能管理峰会特别精选以下运维领域热门议题,将于3月31日在上海与大家一起进行深度探讨。

DAMS中国数据智能管理峰会


时间:2023年3月31日

地点:上海龙之梦大酒店(上海市长宁区延安西路1116号)

指导单位:中国信息通信研究院、上海市软件行业协会、上海市计算机行业协会

主办单位:dbaplus社群

运维主题看点

  • 京东、美团、蚂蚁、新浪、携程、vivo、工商银行、华夏银行等互联网名企和大型银行,都是怎么做运维数智化转型的?

  • 如何基于数据库源码的分析,快速、准确定位故障根因?

  • AI算法如何更好地与真实运维场景结合,使运维数据价值升级?

  • 云时代下,如何通过存算分离、离在线混部等设计,满足高并发、高可用、高性能的需求?

  • 金融行业规模化、移动化、无人化运维如何规划与落地?

演讲嘉宾及议题

工商银行规模化监控系统落地实践

工商银行 数据中心系统三部副总经理 胡继强

介绍工行全球总分行组织模式下,两地三中心高可用布局的监控体系结构,以及超十万级纳管服务器规模的监控数据采集、处理、预警、通知和自动化处置的方法,具体包括以下内容:

  1. 工行开放平台的监控体系;

  2. 如何适应云环境、分布式、国产化等规模化、差异性的挑战;

  3. 未来,监控系统将何去何从。

云原生离线在线资源混部技术落地

携程 研发总监 周昕毅

介绍基于K8S平台进行离线计算集群与在线应用集群的资源混部的技术方案,具体包括以下内容:

  1. Yarn on K8S;

  2. 云原生网络模型;

  3. 统一资源调度;

  4. 大数据平台自动化运维管理。

vivo业务高可用建设实践

vivo 业务运维总监 周甲黎

随着业务高速发展,vivo对稳定性的诉求越来越高,面临着机房可用性、业务强耦合等多方面的挑战,本次分享将基于这些业务挑战,给大家带来一些高可用建设的新想法和建议,具体包括以下内容:

  1. 影响业务稳定性的因素;

  2. 高可用建设的常用方法;

  3. 在业务标准化、高可用架构应用、预案演练及复盘等四个方向做的重点建设、沉淀的运维方法,尤其是高可用建设的具体落地实践。

京东科技全链路故障诊断智能运维实践

京东科技 智能运维算法高级经理 张静

本次分享将介绍京东科技智能运维整体能力、传统运维与智能运维在故障预警到根因定位的直观比对时间轴,以及智能运维建设的价值。还将详述时序异常检测算法学件在京东科技线上横向业务场景,纵向监控、数据库、网络、资源调度等多个场景的落地经验,并提供以下启发:

  1. 运维算法学件建设经验,持续化迭代训练体系搭建方案;

  2. 运维算法学件与真实运维场景落地结合的实践经验;

  3. IEEE智能运维方向论文收录经验,知识产权创新点挖掘方法。

混沌工程在中国银行的实践探索

中国银行 信息科技运营中心技术经理 侯楠楠

众所周知,在一个复杂的分布式系统中,我们并不能阻止系统软硬件故障的发生,所以应该致力于在异常行为被触发前,尽可能多地识别出会导致异常的环节。当我们识别出这些风险时,就可以有针对性地对系统进行加固、防范,从而避免故障发生并带来严重后果。这就是本次分享混沌工程的目的,具体将介绍以下内容:

  1. 混沌工程的背景;

  2. 基于分布式建设的混沌工程实践在中国银行的探索;

  3. 混沌工程平台建设的思路;

  4. 混沌工程对生产安全的意义。

新浪智能数据分析平台建设

新浪 部门主管 高鹏

近些年“可观测”成为运维场景的标配,其对大数据系统提出了更高的要求,本次分享将介绍新浪在此挑战下构建智能数据分析平台的经验,具体包括以下内容:

  1. 如何协助开发构建全链路监控体系,将业务的繁杂调用关系搜集到统一分析平台,构建统一分析、报警平台;

  2. 在高达近千万写入量的背后,是一套高效、低成本的数据分析平台,如何在其上构建对用户友好的系统,方便用户捞取、分析数据;

  3. 除了在运维监控领域,如何将数据分析、数据科学用于成本分析,并结合K8S对资源实现更细粒度的动态弹性,降低服务成本。

数据库故障分析&性能优化平台建设

美团 数据库自治服务团队负责人 沈裕锋

分享如何基于mysql源码的分析来快速、准确定位故障根因以及通过改造MySQL查询优化器源码,基于Cost模型自动给出风险SQL的索引优化建议,具体包括以下内容:

  1. 快速、精准地做数据库故障根因分析;

  2. 快速发现潜在的风险SQL并自动给出索引优化建议;

  3. AIOps在数据库领域的探索及落地经验。

云数据中心的移动化和无人化运维探索与实践

华夏银行 信息科技部中间件维护组组长 魏中伟

主要介绍华夏银行云数据中心在向“四层三域一中台”架构演进的过程中,对移动化和无人化运维的探索路径和经验总结,具体包括以下内容:

  1. 华夏银行云数据中心的“四层三域一中台”运维架构是如何构建的;

  2. 华夏银行构建移动化运维体系的搭建方案、安全措施、最新成果;

  3. 华夏银行无人化运维的实现方案、经验总结、最新成效和未来计划。

运维数据价值升级:基于SLO健康度体系探索与实践

蚂蚁集团 AIOps技术专家 徐新龙

SLO为应用的服务质量定义了明确的目标,帮助团队提供一致的客户体验、平衡功能研发与平台稳定性,改善与内部和外部用户的沟通。本次分享将以蚂蚁集团内部实践为例,介绍如何从0到1构建SLO、如何将AI结合SLO使数据发挥更大价值,以及基于SLO的健康度体系在运维场景下的成功实践,并提供以下启发:

  1. 结合实际场景和需求,定义SLO的意义和出发点;

  2. 通过标准化设计,构建自动化能力,提升规模和场景覆盖,简化SLO配置的复杂度和费力度;

  3. 将SLO应用到日常的应急场景中,结合AI算法在异常检测、故障定位、预案推荐等场景下的使用,提升应急能力和效率。

因智而治,数据库“自动驾驶”的探索和实践

阿里云 数据库事业部高级产品专家 胡航丽

智能化,是数据库未来的重要发展方向之一。AI for DB,帮助数据库具备自感知、自定位、自修复、自运维的能力,可以有效简化数据库的运维难度,帮助数据库实现“自动驾驶”。本议题将分享阿里云数据库在“自动驾驶”上的具体实践和经验。

*更多运维主题演讲嘉宾及干货议题在路上,持续更新……

峰会议程

门票/商务合作请联系钟女士,联系电话:14743605356

邮箱:zhongminhui@dbaplus.cn

报名方式

铭毅天下 · 专属优惠

码上报名,共襄盛会

输入优惠码:“MYTX" 99元全日普票免费  限额5张 先到先得,抢完即止

更有团购票29.9元/人  非常亲民的门票价格  希望技术人都可以参与的

以上是关于京东蚂蚁新浪工行等面向云原生的运维数智化转型实践丨DAMS峰会的主要内容,如果未能解决你的问题,请参考以下文章

云原生背景运维转型之 SRE 实践

传统企业云化后的运维困扰及 AIOps 转型实践 | 活动通知

中国移动陈国:云原生技术赋能数智化转型升级

云原生时代运维转型划重点:AIOpsDataOpsCI/CD混沌工程丨DAMS峰会

如何提高IT运维效率深度解读京东云基于自然语言处理的运维日志异常检测AIOps落地实践

运维侠客行杭州站沙龙回顾 | 云时代下的运维管理实践