HYDO自动化运维:自动化监控与运维解决方案

Posted 豪越

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HYDO自动化运维:自动化监控与运维解决方案相关的知识,希望对你有一定的参考价值。

自动化运维是一个体系,体系的建设需要循序渐进,并且有架构有逻辑有工具。


目前,自动化运维多是在互联网运维领域实现,大部分基于开源软件,由诸多专业细分的技术团队协作支撑,有精力有氛围有网络环境来专研不断出现的新问题以及新的技术应用。



传统运维多存在于非互联网行业,由于自身架构、历史渊源及业务体系原因,多采用闭源厂商开发的运维系统,但在网络优化、升级及架构重组过程中,也逐步向自动化运维靠拢。


运维的概念很广,体系也很庞杂。理想状态下的自动化运维范围包括安装自动化、部署自动化、监控自动化、发布自动化、升级自动化、安全管控自动化、优化自动化、数据备份自动化等。基于自动化运维调度引擎,可完成巡检、性能分析、文件下发、故障诊断等自动化运维任务。


不积跬步,无以至千里。运维的趋势是自动化运维、智能运维,自动化运维是智能运维的基础。现今各行业运维建设方案都在向此目标靠拢及努力,逐步夯实基础,以期距离智能运维更进一步。


 传统运维升级解决方案推荐 


对于运营商、金融、政府、军工、交通、医疗、教育、电力等行业来说,在自动化运维建设过程中,自动化监控、自动化数据采集、自动化巡检和告警、自动化数据分析等基础体系搭建,可以通过部署运维管理软件厂商推出的智能运维管理系统来快速实现。


以HYDO为代表的豪越自主研发的智能运维大数据管理平台,在自动化数据采集和自动化监控方面,成果斐然,已在政府机构、科研院所、高校、军工、医疗等诸多领域广泛应用。HYDO开创性实现大规模数据中心的统一集中管理、实时监控、安全高效运行和自动化运维。


HYDO涵盖网络、动力环境、IT基础设施、IT硬件、软件、业务系统、视频、云服务等;可实现多类型指标的精准管理和可视化呈现;具有故障自愈功能,开启全天候无人值守模式;开创移动运维解决方案,大幅降低运维成本;基于大数据平台的分析与挖掘,构建Al平台助力用户实现智能化运维。


HYDO自动化运维:自动化监控与运维解决方案

HYDO产品技术架构图


 系统技术架构划分为四层:数据采集层、中间调度层、数据存储层和WEB应用层。


 数据采集层:采集被监控对象的指标数据。

 中间调度层:调度数据采集层采集数据,并对采集的数据做转换、存储和告警识别处理。

 数据存储层:存储配置信息和调度层处理后的采集数据。

 WEB应用层:人机交互的数据录入和展示


HYDO自动化运维:自动化监控与运维解决方案


自动化监控中心


01/大屏集中、实时展示


HYDO智能运维大数据管理平台能够统一、集中展示整个机房IT基础设施、基础软硬件设备和业务系统等资源的运行情况,通过扇形图、条形图、折线图、仪表盘等可视化功能组件,帮助决策者、管理者、运维人员迅速掌握整体IT设备和系统的运行状态。


具体监控内容包括:


>系统健康度

实时分析、计算数据中心所有监控对象和指标的运行数据,通过分析算法来综合评估系统整体健康度并进行动态展示。


>基本信息

实时显示数据中心所有被管对象的状态信息,包括被管对象总数、正常运行数、宕机数。

实时显示数据中心所有被管对象的指标汇总信息,包括指标总数、正常指标数、告警指标数等。


>系统负载

实时展示系统运行状态信息,包括CPU、内存、磁盘空间使用情况,以曲线图形式显示网络流量等运行数据的变化趋势与波动情况。


>TOP3动态展示

实时展示CPU使用率、内存使用率、网络流量使用排名前三的被管对象信息,并以视图形式展示各指标值和设备名称,使维护人员可实时了解重要设备的关键指标峰值情况。


>存储空间动态展示

监控主机磁盘/存储设备的存储空间使用情况,以柱状图形式展示各存储对象的总空间、使用空间和剩余空间。


>定制化展示

HYDO系统可根据不同业务场景和展示要求,提供大屏的定制化设计与开发,用于呈现多样的业务状况和设备运行信息。


HYDO自动化运维:自动化监控与运维解决方案


02/可视化综合展示


通过多种可视化方式从多个视角和维度对整个IT系统运行情况进行综合、全面、集中的监控展现。针对信息中心不同岗位、不同人员提供不同的管理视图,包括告警总览、告警分析、告警信息排行、关键业务系统健康度、网络设备性能TOP、线路流量TOP、主机设备性能TOP、巡检统计TOP等基础设施运行统计概览。


HYDO自动化运维:自动化监控与运维解决方案


03/拓扑视图监控


HYDO智能运维大数据管理平台通过独有的拓扑生成算法,能够快速、高效、准确的搜索整个数据中心的各类管理对象,包括网络设备、安全设备、服务器、虚拟化等,自动生成拓扑结构,并提供拓扑报告。


>网络拓扑

系统可以自动发现数据中心的网络设备及设备之间的连接规则,自动生成网络拓扑,并根据连接规则有序排列。网络拓扑图可以呈现设备告警信息、基本信息、状态信息、面板信息等,并可进行远程测试、远程登录等操作。


>系统拓扑

根据业务逻辑关系,自动、手动生成系统拓扑图。系统拓扑图可展示操作系统/数据库/中间件/业务系统的关联关系、告警信息、基本信息和实时运行情况,为主机管理提供全面的状态信息和运行数据。


>虚拟化拓扑

  虚拟化拓扑清晰地展示了宿主机、虚拟机、虚拟存储与网络之间的关联关系,并实时呈现运行状态、性能信息、告警信息、基本信息等数据信息。


HYDO自动化运维:自动化监控与运维解决方案

某大学网络拓扑图


>机房拓扑

全面展示机房的整体布局,包括机柜陈列、设备分布、动力环境设备的位置及状态,实时显示机房温度、湿度、漏水、UPS、蓄电池、电源、烟感、门禁状态等指标值。


>业务拓扑

以业务系统的构建和问题分析为导向,自动将原有离散的设备、应用、中间件、数据库及基础设施,整合呈现为清晰严谨的业务系统架构。通过业务系统拓扑图的性能分析,可关联分析系统各个组件的性能问题。


HYDO自动化运维:自动化监控与运维解决方案

业务拓扑图


04/资源总览视图


HYDO智能运维大数据管理平台实时展示所有资源组的运行状态,也可单独查看某个资源组的详细运行信息。资源组是根据管理或业务需要而创建的组,由一台或多台主机构成。创建资源组使运维管理变得简单,将每个人或部门负责的设备和服务以组的形式呈现,分工管理,职责分明。


05/异地分布式监控


HYDO智能运维大数据管理平台通过跨地域分布式扩展模式,实现异地多站点的集中统一监控, 对每个站点各种设备和服务进行有效的监控和报警,提高整体管理效率,降低系统运维强度和复杂性。


HYDO自动化运维:自动化监控与运维解决方案


自动化数据采集


01/网络设备数据采集和监控


对网络进行全面管理,实时展现网络系统的各种性能数据。


>基本信息

实时查看网络设备的基础信息,包括品牌、型号、配置、运行时间、设备面板、端口状态、线路状态及连接等。


>性能分析

实时展示所有设备的性能信息,如CPU负载、MEM利用率、线路流量、帧流量等。


>网络测试

通过PING、SNMP、TELNET等测试工具进行单节点或IP区间批量测试。


>无线管理

对无线AC及AP设备进行统一管理,包括无线设备自动发现、状态管理、拓朴生成、在线AP数、离线AP数、告警管理等。


02/服务器数据采集和监控


支持对主流操作系统(Windows、HP Unix、Aix、Solaris、Redhat、CentOS、Redflag、QiLin)的实时监控;支持对CPU性能指标、内存工作状态、硬盘、网口状态及流量、系统状态、主进程等实时监控。


03/存储设备数据采集和监控


对主流存储厂商(IBM、HP、DELL、华为、EMC等)的磁盘阵列、磁带库设备进行实时监控和管理,包括设备运行状态、网络连通性、磁盘的运行状态、控制器状态、存储总空间、空闲及占用空间等。


04/IP节点数据采集和监控


>打印机监控

支持多品牌打印机的监控,监控指标包括:设备运行情况、网络连通性、缺纸/缺墨状态等。


>摄像头监控

对摄像头的运行状态、网络连通性及视频质量进行实时监控和管理。


05/虚拟化数据采集和监控


实现对虚拟环境中宿主机、虚拟机、虚拟存储、集群、资源池、虚拟交换机等对象的性能、状态和告警的实时监控,支持用拓扑图和列表形式集中展示各个被管对象监控指标,包括基础信息、运行信息、CPU负载、MEM利用率、宿主机的硬件状态、数据存储容量及使用空间;提供虚拟化报表统计功能,包括运行状态统计分析、性能统计分析、告警统计分析报表。


06/IPMI硬件数据采集和监控


支持服务器硬件带外管理,通过IPMI协议实时展示IPMI硬件的状态信息,包括硬盘、温度、风扇、电源、内存、CPU等指标,并提供开机、关机等操作。


07/数据库数据采集和监控


支持对Oracle、SQL、mysql、DB2、达梦等主流数据库的监控和管理,包括:运行状态、连接数、并发数、数据库日志监控、缓存监控、索引信息监控、库缓存监控、监听器监控、进程监控、回滚段监控、实例监控、会话监控、 实例性能信息监控、SQL语句执行状况监控、日志监控和表空间使用率等,也可根据需求定制不同的监控指标


08/中间件数据采集和监控


支持对WebLogic、Websphere、Tongweb、Tomcat、Apache等主流中间件的实时监控,包括中间件运行状态、性能、通道、队列信息、线程、事务信息、连接池状态、连接数量、最大连接数量、Session数等指标监控。


09/应用性能数据采集和监控


支持对HTTP、HTTPS、FTP等主流应用进行实时监控,包括应用状态、进程状态、进程占用资源情况、下载速度、最大时延、最小时延、平均时延、端口状态等指标;支持对web运行状态、网页篡改进行实时监控和报警。


10/定制化数据采集和监控


对服务提供定制化监控和管理,如对电子政务、OA、ERP、HIS、MES等业务系统进行定制化管理,监控指标可自定义,包括服务运行状态、端到端响应时间、业务/应用所关联的资源对象的性能和故障等。


HYDO自动化运维:自动化监控与运维解决方案


自动化巡检及告警


01/自动预警和报警


HYDO智能运维大数据管理平台采用灵活、清晰、高效的报警策略,经过多年的应用和改进,已具有完善的报警功能;支持告警阈值、告警条件、告警级别等指标的自定义设置,同时提供多种报警方式,如微信、邮件、短信、网页、声光等。




03/日志自动采集和分析


支持对Syslog、文本日志接收和分析,可灵活设置接收对象、等级和关键字的筛选,并自动记录所有被监控主机和服务的状态变化 , 根据关键字进行告警提醒,便于管理人员查看、统计报警历史,分析和定位系统故障。


04/自动化巡检


提供智能巡检功能,可自定义巡检项、巡检周期等参数,并提供自动巡检和手工巡检两种模式。巡检完成后,系统自动生成图文并茂的巡检统计报告并可主动推送至负责人邮箱。


05/配置自动备份及对比分析


HYDO智能运维大数据管理平台提供对网络设备配置文件的定期备份功能,通过TFTP方式对各个品牌、类型设备实现配置文件备份,备份任务、备份周期、备份数量可灵活设置,支持配置文件自动对比分析,当配置信息发生变动时可及时告警。


HYDO自动化运维:自动化监控与运维解决方案


自动化统计分析


01/自动统计报表


提供各种类型图表(饼图、曲线图、柱状图、数据表、仪表图等)的可视化展示,可协助用户分析网络、主机、服务等各种被管对象的运行状况,提供专业化的分析方法,同时系统提供历史数据的查询和导出(PDF、EXCEL),方便管理人员直观、多角度掌握IT资源的整体运行情况。


02/运维大数据分析


HYDO智能运维大数据管理平台自动收集被监控对象的运行日志,对响应时间、服务质量、网络状态、网络流量、性能指标、故障频率、安全指标等进行实时监控,对海量数据进行关联、挖掘与分析,全面展示数据中心的运行状态和薄弱环节,并给出预警、提醒、运营优化及规模扩展建议。


      结语      


社会化大分工和分工的细致化,是进一步提高专业能力和生产效率的必然趋势。目前,各行业的专业细分与协作都已如蜘蛛网一样密集又井然有序,且在进一步扩大范围。运维行业也如此。各行业的运维团队只需将目标集中在确保内部业务稳定、畅通,保障并提升业务体系运转效率。


传统运维管理软件仍是非常重要的一个部分。传统基础架构体量庞大,系统庞杂,且私有部署基础架构的需求仍然持续存在。IT系统建设和优化是一个持续发展的过程,自动化运维的各细分需求不断迸发,运维服务解决方案也随之不断涌现,现下的趋势可见IT运维服务和关键业务已成为一体或密不可分运维管理,任重道远。



推荐阅读:

<  

<  



豪越科技有限公司是一家以数据中心智能运维、资产管理、流程管理、视频监控、信息技术服务等为核心业务,专业提供智能运维及系统集成服务的IT解决方案提供商。


HYDO自动化运维:自动化监控与运维解决方案

让运维更简单

数据更安全

www.haoyueweiye.com

关注一下你会更好看耶


以上是关于HYDO自动化运维:自动化监控与运维解决方案的主要内容,如果未能解决你的问题,请参考以下文章

AIOps中的四大金刚

游戏运维的最佳实践:搜狐畅游自动化运维之旅!

AIOps落地的前提条件探索

百度 AIOps 实践中的四大金刚

人工智能与运维的碰撞火花之Aiops

一个好的DevOps工程师如何兼顾运维与开发?(附思维导图)