可为OpenStack监控提供帮助的7种AI方法
Posted 开源云中文社区
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了可为OpenStack监控提供帮助的7种AI方法相关的知识,希望对你有一定的参考价值。
OpenStack是最好的软件之一,它帮助数据中心所有者立即部署虚拟机,并通过仪表盘或OpenStack API(应用程序编程接口)监视日志。
OpenStack的优点在于,使数字化企业能够轻松地创建、评估和控制其计算环境。
然而,在处理大量的日志数据时,在OpenStack设置中产生的大量日志数据仍然是一个严重的挑战。
由于拥有丰富的生态系统、更低的运营成本和更高的灵活性,世界各地成千上万的企业都在使用OpenStack。然而,在部署这种技术时,用户遇到了一些挑战,尤其是在识别和监视资源的时候。
下面,我们将重点列举一些和OpenStack监控有关的问题和补救措施,使OpenStack成为云计算和虚拟机集成的最合适的解决方案。
动态环境监控问题与解决方案
大多数OpenStack服务都是完全静态的。而云计算环境非常灵活,因为它可以根据部署的服务和应用程序的数量增长和收缩。因此,在动态环境中生成静态日志导致IT经理对云环境中正在发生的事情无法完全了解。
所以,为了刷新统计数据,就需要人工干预。在部署容器和虚拟机的环境中,人工干预需要时间。在这种情况下,必须有一个拥有能够持续监控新日志数据能力的团队。当然,这可能相当麻烦,更多时候数据中心都缺乏足够的人力。
为了解决动态虚拟机环境监控的问题,以AI为动力的监控解决方案是最好的方法。人工智能专注于实时监控所有的OpenStack组件。此外,任何可能对整个环境产生重要影响的服务都会自动获得最高优先级。最后,IT专家们对每个微服务中发生的事情都会有一个简单的概述,包括专有软件应用程序的日志,以及存储、网络、计算和数据计划组件。由于所有微服务的简单性和连接性,这些数据日志对解决任何问题都有直接而深刻的见解。
遗留混合问题与解决方案
毫无疑问,大多数组织仍然在云服务之上运行他们的旧计算基础设施。
事实上,超过75%使用OpenStack部署的组织还没有放弃其他组织的遗留应用程序或平台。其中包括谷歌和Amazon云服务。
对于遗留混合,OpenStack使用的开源监控工具可能没有更好的定位来完全生成足够的日志监视混合环境。
这迫使公司使用多种监控工具,这就给IT管理人员带来了问题,同时还会增加组织的开销。
数据中心渴望混合和良好呈现的数据日志,这些日志来自于完全不同的虚拟机部署节点。人工智能监控工具可以评估和展示来自不同部署的数据,特别是如果它们有一个API。最后,通过人工智能形成的洞察力使得在网络上追踪问题变得简单。人工智能可以帮助IT管理者立即查看不同指标之间的关系,并对其进行评估,以了解是哪些组件出现什么错误。
OpenStack的分布式和反耦合特性
OpenStack微服务的环境妥协被设计成许多不同的任务。然而,每个任务都会使用REST(具象状态传输)API公开它们的最终结果。
OpenStack的微组件相互通信,以实现使用消息传递层交付虚拟机的共同目标。这种方法的问题是,因孤立导致的失败会扩展到整个基础设施。
当单个微服务出现错误,可能会导致整个机器的部分或完全停止,从而使整个服务处于脱机状态。您能想象一个完整的web应用程序由于一个不容易识别的微组件而失败吗?
非单一的服务使得IT经理很难评估单个微组件发生故障时对整个计算环境的实际影响。要解决这个不确定性,我们需要了解云基础设施是如何工作的。你需要大量投资,并学习所有功能。其次,您需要确定不同组件之间的关系。最后,您必须深入理解所有可能直接影响特定云服务的服务。考虑到这一点,您不仅会理解为什么某个组件由于非功能性的微组件而失败,而且您还将对可能受到流程影响的其他服务获得有意义的见解。因此,您将最小化您的云计算的风险。
不同的结构和文件夹
OpenStack云管理设置依赖于传统的监视工具,这些工具有很多问题,其中一个是已知的“黑盒”问题,即最终用户只看到输入和输出,而不是流程。
在现实世界中,OpenStack的部署是在不同的地理位置和结构中进行的,这意味着许多组件,如托管、云服务和网络支持程序都参与了这个过程。另一方面,安装了不同的软件应用程序,就要对每个应用程序进行跟踪,以确保云服务的流畅运行。由于结构和应用程序的多样性,对于IT管理人员来说,非常具有挑战性。
每个组织都需要投资人工智能(AI),而没有人工智能的好处是它将复杂的日志简化到一个仪表盘。这使IT经理能够获得集中的数据,以便在整个计算环境中获得完全可见性。简而言之,OpenStack技术的最终用户将获得由计算、网络和技术的存储组件所生成的、各个方面的日志。数据将被表示为一个完整的画像,在真实的时间和自动更新的环境可以很容易监测。这将有助于减少可能的数据丢失,因为所有服务都将在不可能出现偏差的情况下运行。人工智能依赖于算法的不同组合和排列,可以帮助识别OpenStack监控问题。
监视默认指标
OpenStack的检测日志过度依赖于问题检测的默认指标。这包括内存泄漏、文件问题、死锁、性能结果等。尽管这些日志在识别常见问题时非常有用,但它们无法检测需要专门监控工具的复杂问题。通过使用通用指标来检测和预测故障并不总是理想的,有时会导致错误的警报。一个例子是,当磁盘空间达到某个特定的限制时(例如80%),就会发出警报。但磁盘空间不足80%不一定是出现严重性能退化的证据。
你需要使用一个完整的故障识别方法,并运行不同的测试以确保某些服务是正常的。不要仅依赖于开源的指标,跳出框框,进行所有可以帮助你识别组件失败的测试。
基于TCP的服务瓶颈和连接池的耗竭
OpenStack是一个分布式服务,它的所有核心服务都通过REST API公开。另一方面,OpenStack的消息传递服务是基于TCP的,因此,它很容易受到包括网络、连接问题在内的主要问题的影响。而且,大多数OpenStack服务都连接到SQL(结构化查询语言)数据库。
OpenStack需要有正确的连接状态来生成正确的监控解决方案。另外,使用正确的命令行工具检查端点服务的状态,以获得在后台发生的真实状态。换句话说,您需要开发一种习惯,使用定制的指标来扩展监视解决方案,可以通过OpenStack API或其他开放源码工具来设计。大多数IT经理只有在过度依赖默认的度量标准和日志时才会出错。
最后一个:关于人
作为IT经理,如果你想要运行无瓶颈的云或虚拟机基础设施,就需要遵循正确的流程。OpenStack的失败随时可能发生,因为IT管理器会以这样或那样的方式失败。当然,由于人为因素而导致的程序设计不当,也会导致整个系统的巨大失败。
另外,如果一个微组件存在问题,请研究该场景,以了解它如何在影响整个系统。记住,忽视一个服务可能会导致收入的损失,会付出高昂的代价。此外,在监视仪表板时要及时响应红色警报。例如,如果系统显示95%的磁盘被利用,那么立即采取行动增加更多空间。
结论
OpenStack是一项伟大的技术,它可以帮助您的业务增长,并使应用程序在云中安全运行。这些技术帮助我们在稳定的环境中部署虚拟机。然而,我们需要记住,一台机器本身并没有“思考”,需要尽最大努力,使用标准、日志和人工智能工具来采取适当的行动。
编译:小宽
来源:https://www.loomsystems.com/blog/7-ways-ai-can-come-to-the-rescue-for-your-openstack-monitoring
投稿邮箱:openstackcn@sina.cn
以上是关于可为OpenStack监控提供帮助的7种AI方法的主要内容,如果未能解决你的问题,请参考以下文章