“可观测性”在IT 运营管理中的作用
Posted ManageEngine卓豪
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了“可观测性”在IT 运营管理中的作用相关的知识,希望对你有一定的参考价值。
什么是可观测性
可观测性作为一个概念解释了在多大程度上可以借助从环境本身提供的外部来源收集的数据来感知网络或环境。一个完全可观察的生态系统回答了“发生了什么变化?”这个问题,将帮助管理员查明问题,跟踪问题,找到根本原因,并在影响整个业务之前修复它。
鲁道夫·E·卡尔曼(Rudolf E. Kálmán)引入了可观测性的概念,作为衡量系统内部状态从其外部输出的知识中推断出的程度的指标。Gartner将可观测性定义为软件和系统的特征,允许它们被“看到”,并允许回答有关其行为的问题。
可观测性能够:
- 可观测性使您能够更好地了解网络,使资源管理更容易,并通过提供对分布式 IT 基础架构的透明和深入可见性来提高其性能。
- 网络可观测性是通过遥测收集的信息实现的。遥测是记录或表示从监视整个网络时获取的数据的过程。然后分析收集的数据,以深入了解您的环境、其中的组件及其整体行为。
- 可观测性使用遥测数据来确定环境的行为。然后使用通过指标、日志和跟踪收集的遥测数据(通常称为可观测性的三大支柱)来实现完全可观察的环境。
可观测性的三大支柱
- 指标:指标是从网络的各个组件测量或获取的数据。网络中的延迟和流量、错误和丢弃率以及从网络设备获取的饱和数据都会影响指标。
- 结构化日志:日志记录系统中发生的事件。无论是系统日志还是应用程序日志,记录和分析获取的日志都将帮助您确定系统中发生的事件和操作。
- 痕迹:跟踪为您提供应用程序在执行特定功能时采用的分步方法。它们可帮助您识别应用程序中性能最低的功能或组件,帮助进行故障排除,并提供对应用程序行为和整体运行状况的关键可见性。
一个完全可观察的网络将促进和简化流程。这包括服务部署、配置更改、工作负载分配、云依赖关系、客户体验、服务性能和资源消耗。
可观测性和监控:异同
- 监控:监控处理“已知的未知数”。网络监视或一般环境监视涉及错误检测、数据收集以及了解网络组件的可用性。监视时,网络管理员通常会决定要监视的内容,并随后在已知容易出错的区域中发现问题。在这样做的过程中,他们忽略了他们不知道的事情或错过了问题的根本原因。
- 可观测性:可观测性处理“未知的未知”。可观测性是监视您的环境以避免上述异常并预测更改(如果有)。监控是其操作的一部分,AIOps、跨域关联、应用程序关联和性能分析是对应的。
可观测性不仅仅是关于什么,还可以让你了解原因和方法。找到导致中断的变化总是更容易,但困难的部分是了解它是如何发生的,为什么会发生,以及最初是什么导致了它。
Gartner 对可观测性的定义:
可观测性是监控演变为一个过程,该流程提供对数字业务应用程序的洞察,加速创新并增强客户体验。
为什么要观察您的网络
分布式网络和动态环境是帮助基础设施轻松扩展的新常态。随着整个世界都倾向于将AIOps和机器学习作为其主要焦点,任何AI驱动的服务的第一步都是了解服务本身的行为以及与之相关的组件。在这里,可观测性成为确定环境整体行为的必要条件,而不是奢侈品。
可观测性使您能够对本质上不可预测或动态的复杂网络和分布式系统进行卓越的控制。如前所述,您可以获得有关异常情况以及原因和可能出现的其他相关问题的答案。可以分析收集的可观测性数据,以确定对不断扩展的生态系统的业务影响,因为它通过动态变化进行调整和交付。
可观测性可以保证现代企业的哪些方面
- 数字体验和业务 IT 弹性
- 云原生适应性
- 应用程序现代化
- 威胁检测和取证日志分析
数字体验和业务 IT 弹性
- 借助全栈可观测性,实时识别问题以加快修复速度。
- 利用完全可观察的网络来帮助维护服务运行顺序,并密切关注关键的 SLA。
- 设计和开发策略,以实现高弹性应用程序的完全可观测性,并使用适当的最终用户监视工具实施最终用户应用程序性能监视,以确保满足客户期望。
云原生适应性
- 云原生应用程序在本质上是动态的分布式微服务环境中运行。在这种情况下,可观测性是通过分析问题存在的方式、时间和地点来保证完全可见性的唯一方法。
- 使用可观测性帮助映射 IT 体系结构中的资源,使相互关联的功能成为可能,并促进应用程序的无缝自动化部署。
- 确定分布式应用程序崩溃的位置和原因,并通过根本原因分析进行修复。
应用程序现代化
- 借助可观测性,您可以在适应现代化和旧式转换时更轻松地处理应用程序的质量控制。
- 通过设置基准来比较和分析应用程序行为,并管理应用程序级别发生的配置更改。
- 更深入地了解应用程序性能和可用性。检测、排除故障并深入到影响应用程序的问题的核心原因。
威胁检测和取证日志分析
- 使用威胁检测技术来预测中断或查明中断应用程序性能的错误。
- 利用可观测性以日志和报告的形式获得持续不断的反馈,并使用与完整网络可观测性相关联的高级机器学习功能,借助收集的历史数据预测任何即将发生的事故。
OpManager Plus:可观测性解决方案
OpManager Plus已将可观测性纳入其行列。它改进了其功能,以适应企业在阻止威胁方面的主动监控需求,并充分利用取证日志的潜力来实现这一点。OpManager Plus是通过使用可观测性密切关注网络应用程序的完美解决方案。它是一个集成解决方案,包括服务器监控、应用程序监控、带宽监控、配置管理、防火墙安全、合规性管理以及 IP 地址和交换机端口管理。使用 OpManger Plus可以:
- 获取有关安全性、带宽和合规性的全面报告,确保网络安全不会受到损害。这些安全报告可用于了解可能影响网络的所有安全威胁。这些报告提供了有关安全策略是否需要修订的见解。
- 创建根本原因分析配置文件,并找到影响网络的问题的根本原因。这有助于可观测性构建威胁数据库,从而有助于威胁检测。OpManager Plus将帮助创建一个专用配置文件,该配置文件由多个数据监视器的集合组成,根据该配置文件可以得出有关影响网络的问题的结论。
- 对典型的业务流量和网络异常进行分类,以通过由高级安全分析模块 (ASAM) 提供支持的网络异常检测来保护您的网络。作为基于网络流的异常检测工具,OpManager Plus可以帮助检测零日网络威胁。
- 防止内部攻击。外部威胁并不是可能影响网络的唯一威胁类别;威胁也可能来自网络内部。这需要一个智能的内部检测工具来监控组织内员工的活动。URL、影子 IT、防火墙警报等都可以使用内部威胁检测工具持续监控。
- 通过定期监控网络中的所有交换机端口来提高网络安全性。各种应用程序和网络中设备之间的流量通过这些交换机端口进行。OpUtils插件提供了一个高效的端口扫描工具,可以对这些端口进行高可见性,并收集有关网络中端口可用性的宝贵信息。
- 检测网络中的异常流量活动,这可能意味着存在安全威胁,攻击者试图用异常数量的数据包或请求填充真实用户的设备。使用 NetFlow Analyzer 附加组件密切监控来自任何可疑来源的流量的任何偏离。
ITOM 解决方案的可观测性及其他功能
当可观测性旨在帮助预测问题、了解更改并找到处理它们的方法时,它的效果最佳。OpManager Plus倾向于实用的可观测性 - 利用AI和ML技术,结合使用多个网络管理工具收集的大量数据,并为您提供一体化的统一可观测性工具。
具有开箱即用的网络监控功能;管理带宽和网络配置;分析防火墙规则、日志和策略;以及跟踪应用程序性能和使用情况,OpManager Plus 可作为系统和应用程序可观察性的集成解决方案。使用OpManager Plus可以:
- 利用机器学习和 AIOps 的强大功能管理动态环境。通过先进的预测算法和基于百分比的计算,OpManager Plus的关键监视器可以快速适应网络设备不断变化的性能指标,预测指标的高度可靠性值,然后使用这些指标为配置的性能监控器设置阈值。
- 完全控制您的收入关键型应用程序,并确保它们满足最终用户的期望。精确观察关键云基础架构和云托管应用程序的运行状况和性能。
- 监控网络中的变化和异常情况,并确定异常流量的确切来源。监控最高用量者、对话和协议,并确定网络中排名靠前的应用程序。
- 立即检测任何病毒攻击或蠕虫攻击的攻击,并注意经常导致公司网络出现故障的恶意攻击,从而导致工作日损失。此外,触发和记录安全和流量异常警报。
- 使用配置更改模板修复带宽瓶颈,并通过执行命令(例如密码更改)或在 Configlet 或配置脚本模板的帮助下启用 SNMP 来自动执行配置更改。
- 监控和生成通过防火墙设备访问的所有应用程序的报告,并识别可疑应用程序。使用我们可定制的网络管理控制台,将监控的数据转换为可操作的情报,并点击 90 多个小部件。可视化您的整个 IT 基础架构,并允许管理员根据自己的喜好自定义仪表板。
科技云报道:云原生时代,IT运维视角为何要转向可观测性?
科技云报道原创。
云原生时代,可观测性变成了基础设施级的诉求。
随着微服务、容器化的兴起,云原生带来的应用复杂度呈指数级上升,这种复杂度增加了系统状态可视化的难度,企业对于系统可观测能力提出了更高的要求。
2018年,“可观测性”正式走向前台,用于描述云原生环境下服务的状态变量,加之包括谷歌在内的众多大厂一拥而上,很快成为云原生技术领域最热门话题之一。
监控技术和工具革新迫在眉睫
“可观测性”一词诞生于几十年前的控制理论。在许多实际问题中,控制系统的状态变量不是由直接测量得到的,而是通过某种观测方法得到的,由某种观测系统所得到的结果能否真实反映系统的状态就是控制系统的可观测性。
可观测性可以完全反映系统状态的特性,就像汽车方向盘下的各项仪表盘一样,实时动态告诉我们车辆的时速、耗油、灯光、暖风等状态特征。
进入云原生时代,应用的构建部署与运行时基础设施都发生翻天覆地的变化,比如技术架构微服务化、运行时环境容器化、业务系统依赖关系复杂化,运行实例生命周期短等等,监控也随着进行实时动态调整,传统预先配置再监控的方式已经无法满足云原生的场景。
因此,云原生可观测性是指,从传统软件监控及数据分析可视化工具中,总结出在云原生领域中,从底层容器基础设施、通用技术组件到业务应用系统全链路监控运维、运营治理等产品化体系化的能力诉求,确切的体现了云原生的核心理念。相比监控更多偏向自动化工具,可以替代人自动监控系统异常,云原生可观测性不仅包含传统监控的能力,更多的是面向业务,强调将业务全过程透明化的理念。
为可观测注入All in ONE思想
在云原生时代,可观测领域是一个大有可为的市场。Gartner预测,到2024年,将有30%的企业会通过可观测技术来提升数字化业务的运行性能,相比2020年的10%提升了3倍。
2023年,全球可观测市场规模预计将达到164.94亿美元。“可观测市场不断增长,带来的不仅是机遇,同样也带来了更多挑战。企业对于可观测的视野不再局限于应用程序,而是需要从全局的角度洞察云、网、边、端的应用状况,更加主动化、自动化和智能化地提升企业运维的效率。这不只是工具或技术的选型,更是一种理念。”博睿数据CTO孟曦东指出。
随着云原生架构的演进,可观测的边界与分工被重新定义,传统的容器、应用、业务分层监控边界被打破,Dev、Ops、Sec的分工逐渐模糊。业界开始意识到,IT系统作为一个有机的整体,对IT系统状态的监测与诊断也需要一体化的方案。因此,All in ONE思想逐渐成为主流,运维行业也随之发生了三个变化:
一是企业视角发生变化。以前企业更多关注系统运维层面机房建设、底层服务器的搭建、购买,现在基于云化基础设施,企业更注重业务搭建、业务体验优化以及业务运营。
二是运维职责发生变化。云化基础设施对企业而言是不可见、不可控的,因此需要往平台型、业务的方向转型,转向DevOps和SRE方向。
三是监控技术发生变化。云原生导致微服务和分布式趋势增强,使得现在系统很难运维,需要监控技术从“监控”走向“可观测”,构建起一套高效的排障体系。
对于运维行业的变化,博睿数据产品高级总监孙丽表示,云原生使企业从对底层系统资源的投入当中抽离出来,去更多关注上层应用、业务和用户。在这种情况下,业务发展就变成了企业最重要的问题。
正是基于这样的趋势,博睿数据在经过几年的摸索与实践后,正式推出了一体化智能可观测平台ONE,该平台旨在建立一体化、智能化、面向业务与用户体验的统一运维平台,助力企业提高数字化体验,为数字化转型赋能升级。此次博睿数据发布的ONE平台,可以说是国内第一个将所有运维监控需求“All in ONE”的统一平台。
ONE平台从ITOM统一监控、AIOps智能运维、BizOps业务运营、DevOps效能提升四个应用场景出发,帮助客户走出数据中心,打通云、管、边、端, 通过代码到客户的全数据链DNA采集能力,结合ONE平台的大数据及AI能力,实现传统的产品工具到平台+架构的转型,构建以用户为中心的新运维体系。
从产品定义看,“ONE”包含两个统一:统一运维监控技术栈、统一运维数据治理体系。ONE不仅满足了所有监控需求,即开即用、随时扩展的方式,也进一步降低运维管理门槛,提升了系统可观测性广度与深度。同时,面向业务与用户体验运维,囊括了系统的所有观测数据,进行统一管理,并提供丰富的集成扩展,解决因竖井式的监控带来的数据割裂、重复建设、可观测性差的问题。
为互联互通的统一运维平台,ONE全面打通业务和运维,并明确业务指标、转化率、客户留存率、客户流失率等,为运维人员提供指标丰富,降低运维管理门槛。相比很多独立的运维平台,ONE可以给运维管理带来怎样的新体验?
孙丽表示:“ONE平台集告警收敛、异常检测、根因定位、智能见解于一体,聚焦业务与用户体验的运维体系,帮助用户实现从孤立的工具到统一运维平台的建设要求,降低获客成本及协同难度,打造极致的平台体验。”
ONE的优势之一在于展现出较强的关联性,完整复刻出数字化系统的数字孪生,在保证全面可观测的同时,也能掌握监控实体间的关系及其属性信息,实现关联追踪,解决排障难、检索追查难等痛点,大大提升了排障效率,实现了系统之间的真正融合。
同时,ONE将AI能力与运维相结合,形成集信息、经验、智能决策融合的智能见解能力,能够基于AI和规则自动发现问题并给出根因,解决虚假问题扰乱运维、告警风暴、根因定位效率低的问题,助力运维人员快速排除故障,进而提高运维效率。
从应用角度来看,ONE更好地兼顾了行业性与通用性,对于企业更加友好。据孟曦东介绍,ONE将二次建设能力开放给行业客户,让客户自己去调用,也可以开放给生态合作伙伴进行调用,以此来满足不同场景、不同行业客户的需求。
通过做一些“样板间”,实现“开箱即用”通用能力,个性化需求则可以在ONE平台的产品能力进行二次设计,帮助行业客户实现逻辑分析以及不同场景的应用。
结语
随着ONE这样的一体化运维平台的出现,我们看到了可观测平台的一条发展路径:基于系统和服务观测的角度把不同数据在后端融合分析,而不是刻意强调系统支持可观测性数据的分别查询,在产品功能和交互逻辑上尽可能消除指标、跟踪、日志的割裂。通过一体化平台,企业能够建立完整可观测闭环,从事故前异常发现、事故中故障排查到事故后的主动预警监控,为业务提供持续监控、优化服务性能。
、
【关于科技云报道】
专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。
开发者涨薪指南 48位大咖的思考法则、工作方式、逻辑体系以上是关于“可观测性”在IT 运营管理中的作用的主要内容,如果未能解决你的问题,请参考以下文章
IT 运营管理 (ITOM)解决方案-OpManager Plus
数字敏捷性上海道宁与SolarWinds为您提供全面的可观察性IT 服务管理和数据库管理