哪种监控工具才是运维人的最爱
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了哪种监控工具才是运维人的最爱相关的知识,希望对你有一定的参考价值。
参考技术A Zabbix,Nagios,Ganglia,Zenoss,Open-falcon,搜索Linux就该这么学,有篇文章著名的开源监控“五大郎”,可以看下 参考技术B 我自己的话,喜欢云帮手,免费,多功能,不限制主机台数,兼容性超强,一键简单操作。像站点环境一键部署,站点管理定时备份,云主机自定义条件告警,可视化面板监测,云主机一键检测修复,云帮手的这些功能,我觉得都很钟意。 参考技术C 一个好的安全运维平台需要将事件与IT 流程相关联,一旦监控系统发现性能超标或出现宕机现象,就会触发相关事件以及事先定义好的流程,自动启动故障响应和恢复机制。还需要能够筛选出运维人员完成日常的重复性工作,提高运维效率。要实现这些功能都是常规监控软件Cacti、Zabbix所无法实现。同时,还要求能够预测网络蠕虫威胁,在故障发生前能够报警,让运维人员把故障消除在萌芽状态,将所产生损失减到最低。总的来说运维人需要能够在一个平台中实现资产管理、分布式部署、漏洞扫描、风险评估、策略管理、实时流量监控、异常流量分析、攻击检测报警、关联分析、风险计算、安全事件告警、事件聚合、日志收集与分析、知识库、时间线分析、统一报表输出、多用户权限管理的功能,这种集成开源工具到底有没有?它去哪儿啦?
目前市面上有两种产品可满足这样的要求,目前市面上的SIEM产品主要有HP Arcsight(后台挂Oracle库)、IBM Security QRadar SIEM和Alienvault的OSSIM USM,现在的问题是并不缺少商业SIEM解决方案,在开源软件中OSSIM到是最佳选择。
很多人只是肤浅的认为OSSIM只是将一些开源工具集成到一个平台,在OSSIM中颠覆性创新主要在易用(容易安装、部署,容易使用,几乎不用自己写脚本)、分布式监控系统、响应威胁(OTX)、关联分析引擎、可视化攻击展示等。
Alienvault分为开源OSSIM和商业版USM两种,通过这一集成监控工具实现对用户操作规范的约束和对计算机资源进行准实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。
猪八戒才是运维界高手,你还不知道吧?
悟空负责打怪,沙僧要挑担
唐僧让 猪八戒 做取经团队的运维
1
这一天,唐僧急匆匆找到八戒,“八戒,如来昨天登录‘取经之路 App ’查看工作总结时,不是很流畅,你赶快查一查。”
八戒心想:“嗯,一定是哪里出了问题。但是哪里出问题了呢……有了,我先做个折线图。”
2
八戒哼着《背媳妇》,打开统计工具,开始做折线图。八戒先做了个 CPU 数据折线图,又做了内存数据折线图,再是磁盘 IO 数据折线图,然后是网络 IO 数据折线图……八戒不耐烦了。
就算查出来是 CPU 的问题,这还只是在资源层啊,那怎么找是哪个应用,哪个进程,哪个线程?西天取经第一步竟如此艰难,俺想翠兰了,想回高老庄了。
这时孙悟空回来了,“八戒,黄袍怪太厉害了,快来帮一把。”
“好啊好啊……猴哥,你先帮忙看一下我这个问题。”
悟空看了一眼,“算了,我还是自己去吧。”
3
毕竟,加入唐僧团队是观音介绍的。于是八戒给观音发了个微信。看到小弟遇到这么棘手的问题,观音也不能坐视不管,便赐给八戒一个法宝。
“这是啥?”八戒问道。
“RealSight APM。这是我们之间的秘密,不要告诉孙猴子呦。”观音回复。
“能管用吗?”心里犯着嘀咕,八戒还是决定试一试再说。
4
打开法宝,只见所有数据被整合到了一起,形成了资源占用拓扑图,并且对应用瓶颈的根源进行了推理。从图中,八戒一眼就看出要找的问题。系统问题确实是 CPU 使用率过高造成的。而 CPU 使用率过高是 Java 应用中的 pid_003 这个进程中的 th_http 这个线程造成的。现在,八戒只需要关注 th_http 这个线程了。
资源占用拓扑图
八戒查看了该线程的信息,发现线程死锁,把问题报告给了唐僧。
线程死锁
5
问题解决了,八戒睡了一觉后,感觉好无聊。这时,孙悟空又回来了。
“猴哥,我跟你去打怪吧”。孙悟空半信半疑,带着八戒走了。
Leader 唐僧很高兴,因为八戒在干好自己工作的同时,还能给悟空打个下手,一下子提升了团队的战斗力。看来取得真经大有希望啊。
以上是关于哪种监控工具才是运维人的最爱的主要内容,如果未能解决你的问题,请参考以下文章