CNUTCon预告|百度运维专家对AIOps的思考

Posted 2021-04-24 AIOps智能运维

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CNUTCon预告|百度运维专家对AIOps的思考相关的知识，希望对你有一定的参考价值。

9 月 10-11 日，CNUTCon2017 全球运维技术大会即将在上海开幕，百度共有5位运维领域的专家将在大会上分享他们对运维技术趋势的见解和体会，给予技术人在这方向上的启发与思考，相信能给大家带来更开阔的视野和思路！

以下是来自百度的重量级嘉宾的个人简介及演讲简介：

主会场演讲预告

王栋百度基础技术体系主任架构师

为什么说AIOps是未来，百度的思考与实践

讲师简介：王栋，百度基础技术体系主任架构师，本科硕士毕业于清华大学计算机系，博士毕业于北京大学计算机系。曾就职于 Bell Labs 和 Google。2015 年加入百度，主要负责运维平台基础架构和智能化演进方向，参与和主导了百度智能运维 AIOps 平台的设计和研发过程，在 SREcon 和 LISA 等国际系统运维行业会议多次发表演讲。

演讲摘要：百度运维团队一直追求高质量的产品可用性和用户体验，最经济的硬件和带宽成本，高效的产品迭代速度，无人值守的场景化运维，并助力业务核心能力的构建。而百度运维平台也经历了基础运维平台、开放运维平台，到现在的智能化运维平台几个阶段。

本次王栋老师将分享百度对运维下一幕的思考——AIOps，以及 AIOps 在百度具体业务场景下的实践落地。

晚场活动预告

曲显平百度智能运维平台负责人

CNUTCon夜聊：聊聊智能时代的新运维

出品人介绍：曲显平，智能化运维专场出品人，百度运维部技术经理。毕业于复旦大学，2009年加入百度；先后负责基础运维平台、运维数据仓库、智能化运维平台的研发，目前是百度运维平台研发和智能运维方向负责人。其所带领的团队在国际顶会（SIGCOMM、INFOCOM、CoNEXT、LISA、SREcon等）发表多篇重量级论文，参与多场talk。

CNUTCon夜聊简介：近年来，随着大数据、机器学习和AI技术的飞速发展，智能化运维成为运维的热点领域。Gartner的报告宣称，到2020年，将近50%的企业将会在他们的业务和IT运维方面采用AIOps，远远高于今天的10%。那就当下而言，我们应该如何理解AIOps？AIOps应该如何落地？

如果你希望一起探讨运维技术发展趋势，以及未来可能的变化，那不要错过9月10日晚上的夜聊活动，百度AIOps技术负责人曲显平将与宜信AIOps落地负责人，以及DevOps和SRE领域的技术大咖，通过夜聊的方式来和大家分享他们所看到和认为的运维发展趋势，同时，也会就最近业界发生的技术事件进行讨论，为国内的广大社区和技术从业者指明方向，相信这一定可以给你带来不一样的视野和思考。

大数据运维专场预告

李玉明百度智能运维大数据存储平台负责人

百度运维大数据存储平台设计与实践

讲师简介：李玉明，百度智能运维大数据存储平台负责人。负责运维大数据存储平台，包括大规模监控时序数据存储、海量运维事件数据存储和运维知识库建设等。自2008年中国科学院软件研究所硕士毕业后，在IBM中国研发中心从事数据库DB2内核引擎的研发工作。2014年加入百度，构建了大规模时序数据的分布式存储系统，当前承载百度运维十亿级指标、日均万亿级数据点的写入存储和查询。

演讲摘要：百度一直践行AI＋大数据运维的理念，我们的智能化运维技术也构建在由海量运维数据采集、计算和存储系统所组成的运维大数据平台之上。规模上，我们监控了十亿量级的指标，日均采集万亿级的数据点，每日各类运维平台产生的运维事件数以千万计。在这种规模下，运维大数据平台不仅要求7*24持续高写入，而且承载50K QPS的查询压力，给系统的设计带来了空前的技术挑战。我们应用Redis、HBase、Elasticsearch等，来构建多层分布式存储架构，并通过运维特有的数据模型、极致的压缩算法和单IDC故障容灾等技术来解决上述问题和挑战。

本次talk，主要和大家分享百度构建运维大数据存储平台的经验和心得，主要内容围绕大规模时序数据存储技术（TSDB），此外也会包含百度的运维事件存储（EventDB）和运维知识库等技术。主要内容包括：

海量运维数据处理的技术挑战
大规模时序数据的存储
海量运维事件存储
运维知识库

听众受益：

了解大数据运维&智能化运维问题场景和技术挑战
百度大规模运维数据存储的技术架构和经验心得
大规模分布式系统的设计和实践

智能化运维专场预告

曹轩百度搜索运维团队技术负责人

基于日志trace的智能故障定位系统

讲师简介：曹轩，2011年硕士毕业后加入百度搜索运维团队，目前担任搜索运维团队技术负责人，长期从事搜索产品运维工作，积累了大量故障分析定位、大规模故障组织协调的经验，在高可用分布式系统设计、可靠性工程建模、弹性伸缩系统设计等方向，都有深入的见解和丰富的实战经验。

演讲摘要：传统的trace系统面对大规模系统故障时有以下几个问题：

日志回收处理能力强，但对于单PV的精细分析定位受限于人工分析速率，通常在分钟级每PV
大规模复杂异常时，抽样个别PV的定位结论，容易以偏概全，缺少汇聚回归
依赖于人的经验

因此，结合机器学习技术的进步，我们实现了一套基于日志trace的智能故障定位系统及其背后的一套技术方案，主要基于以下技术：基于GBDT的单PV根因预测模型；数据多维度汇聚与维度间信息熵排序；智能抽样系统；数据获取异步化、维度逐级下钻等一系列工程优化。

最终能够实现WQPS/sec的PV根因定位能力，并能够根据根因做统计上的多维度汇聚，该系统应用于百度核心搜索系统，极大的提升了重大异常问题定位效率。

听众受益：

复杂系统大规模故障自动定位的一次最佳实践，包含我们的方法论和理想方案的思考
机器学习技术与运维工具的有机结合，label-set的选取和折衷
日志trace系统在大规模高并发、高吞吐系统上的工程实践和折衷

运维自动化实践专场预告

王博百度资深软件研发工程师

百度大规模时序指标自动异常检测实战

讲师简介：王博，百度资深软件研发工程师，2014年加入百度，先后参与异常检测系统、报警收敛、故障诊断等相关工作，目前是异常检测系统的技术负责人。本次演讲希望能给大家分享百度在时序数据的异常检测策略与工程方面的相关实践经验，与大家共同探讨提高。

演讲摘要：自动异常检测是监控系统中的重要环节，百度的业务种类繁多，业务的监控需求不尽相同，参数配置成本繁重，这给异常检测带来了巨大的挑战。怎样支持百度众多业务的流量、收入、拒绝等常见业务曲线监控？怎样支持O2O业务不定期运营活动场景下的异常检测？怎样给大规模时序数据快速配置异常检测算法及参数？本次将介绍百度自动异常检测系统及其核心技术能力，并针对大规模时序指标参数配置成本高的问题进行探讨，同时介绍我们设计的算法自主选择策略和参数自动配置算法。

听众受益：

百度自动异常检测系统、核心技术能力及其主要算法
异常检测算法自主选择策略、参数自动配置算法及其实践

此外，王博老师在CNUTCon大会结束后，将在AIOps智能运维中与大家分享干货文章《百度大规模时序数据自动异常检测实战》，请大家持续关注AIOps智能运维！

点击文末“阅读原文”即可查看CNUTCon大会的详细信息。

以上是关于CNUTCon预告|百度运维专家对AIOps的思考的主要内容，如果未能解决你的问题，请参考以下文章

干货 | AIOps-百度的思考与实践

BAT都有哪些AIOps的经典案例？| 运维大会

腾讯游戏：基于实际场景的 AIOps 运营实践

宜信宣布开源支撑AIOps技术三大利器

开源啦！AIOps平台助力构建FinTech行业生态圈