你想不想看看,华为云门户的六维系统监控?
Posted Think体验设计
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了你想不想看看,华为云门户的六维系统监控?相关的知识,希望对你有一定的参考价值。
一个产品从雏形到成熟,业务异常会时不时的出现在这个过程中。业务异常可能不可避免,即使成熟的产品也可能由于互联网的攻击而异常,如果能及时发现异常并快速处理,对业务/用户造成的影响就能降到最低。如果某次异常发生后一两个小时或者更长时间业务侧都没有发现,那这种情况就很可怕了。
华为云门户,包括官网、云市场、云社区(论坛)、用户中心等关键业务,是华为云的门脸。面向互联网,随时可能被攻击,业务异常对用户感知、体验、华为云品牌都会构成严重的威胁。业务的监控和告警显得尤为重要,下面来看看我们门户在这方面做了哪些动作来确保异常能快速的被监控到并产生告警,覆盖了系统可用性和用户体验性两大方面。
一、OpsMonitor
介绍:OpsMonitor是基于Zabbix开发的分布式运维监控系统,公有云统一监控平台。可将通用类主机资源使用情况上报到IES统一展示。检测到异常时立即告警。
监控点:主机资源如CPU、内存、磁盘空间、系统启动时长、用户密码过期检测、进程数量监控、网卡状态、网络流量、nginx进程等。
解决问题:服务器资源状态、进程等异常时业务侧无感知。
检测频率:当前配置5分钟。
告警阈值:可根据具体监控项进行配置,如CPU空闲率30%。
告警方式:邮件、短信。
实战:2018年2月28日18:17收到重要告警邮件,紧急连上服务器确认,告警属实,通过确认为后台管理服务器业务正常同步场景,同步完成后告警解除。
监控图:
优缺点:可直观反馈出服务器端资源的使用情况,需要结合业务状态及日志等相关信息进行排查才可定位出问题原因。可能存在误报。
二、博睿
介绍:
博睿网络应用性能监控为第三方监控工具,本工具的优势在于从真实用户角度感知业务应用体验,基于全球监控网络,模拟真实有效的客户现场环境,对指定页面进行监控。工具使用灵活,支持指定监测周期、监测区域、运营商等,从不同维度全面评估网站性能。同时,工具提供了友好的页面进行历史数据查看,包括指标性能趋势、监测散点、瀑布图、分地域、分运营商的统计图等。
监控点:
浏览监控:对指定页面进行主动访问,获取用户体验效果数据等。
事务监控:通过对用户与网站交互行为的脚本录制以及回放,了解交互步骤的瓶颈点,以及相关页面的性能表现。
解决问题:
某个页面突然访问慢时业务侧无感知;业务页面在公司内部访问快,但从公网访问慢;业务页面长时间访问慢,无真实访问数据驱动业务优化;业务侧感知页面访问慢,无法获知从哪个时间点开始变慢。
检测频率:重要页面5分钟。
告警阈值:根据不同页面的正常性能表现,支持灵活告警配置,目前主要的告警项及阈值如下:
告警指标 |
普通告警阈值 |
严重告警阈值 |
首屏用时 |
>*s |
>*s |
整体性能 |
>*s |
>*s |
可用性 |
<**% |
<**% |
告警方式:邮件、短信。
实战: 2018年2月14日18:35开始,连续收到多个博睿告警,显示云博客等页面打开慢:
最后人工拨测发现页面性能确实有下降,紧急组织定位,最终发现在该段时间,有用户恶意向系统发送大量请求,导致服务器处理性能下降,联系安全运维人员协助处理后,业务恢复正常。
三、CloudA
介绍:cloudA服务监控,基于ICProbeAgent进行监控数据采集,支持全面的主机性能指标监控,以及对于cloudSOP部署的微服务监控,同时还支持自由定制第三方组件的进程监控。对采集的监控数据,提供页面进行趋势展示,以及历史数据查看。对于上报的告警,统一汇聚到IES进行展示以及告警通知。
监控点:
主机类:操作系统CPU、内存、磁盘、网络等多项指标。
数据库:连接数、每秒查询数、慢查询数、每秒选择数/更新数/提交数、数据库使用大小等。
服务类:进程占用CPU、进程占用物理内存、进程占用虚拟内存、句柄数、线程数等。
解决问题:
服务器资源出现异常无感知;
数据库访问、资源异常无感知;
业务进程异常无感知;
检测频率:每分钟。
告警阈值:根据不同监控项设置不同告警阈值(支持紧急告警、重要告警、一般告警、警告等级别),如:
告警项 |
紧急告警阈值 |
重要告警阈值 |
一般告警阈值 |
警告阈值 |
CPU使用率 |
>=**% |
>=**% |
>=**% |
>=**% |
告警方式:邮件、短信。
实战:2018年3月2日10:53,监控发现用户中心节点物理内存使用超过紧急告警阈值(80%)。
登录主机节点发现,内存占用确实较高,进一步分析发现,用户中心当前8个微服务合设,每个微服务都占用了1G左右的物理内存,导致整体占用偏高,与SE确认,计划修改微服务启动时的物理内存分配,来降低整体内存的消耗。
准确度:CPU可能会由于业务正常占用而误报,其他资源告警不会误报。
四、EchoTest
介绍:在线测试工具EchoTest无缝迁移API、Web测试能力至现网,可定时、定频率、多地域的发起自动化用例测试,支持站内告警,站外邮件、短信告警。
监控点:由业务自身梳理出关键特性用例,自动化后在线进行定时拨测。如:
解决问题:业务功能使用异常无感知;用户可能已经找到客服,而业务方对问题还无感知;
检测频率:可配置,最短5分钟,当前一级用例(检测业务可用性)为5分钟,二级用例(涉及用户交互功能)为1小时。
告警阈值:用例执行失败立即告警(用例级)。
告警方式:邮件、短信。
实战:2018年02月14日 20:54收到拨测告警,经过排查确认为一例现网问题,后紧急投入修复,半小时内解决问题。
历史报告:可以从历史报告中看出系统近期的一个整体运行情况。
准确度:可模拟用户的真实行为,直击具体问题,针对性强。需要随版本不断更新执行用例库。用例正确的前提下,不会出现误报。
五、ELK
介绍:ELK是一个开源实时日志分析平台,由ElasticSearch、Logstash和Kiabana三个开源工具组成,通过logstash在业务节点采集所需的日志,处理、汇聚录入ElasticSearch,并由Kiabana通过ElasticSearch提供的接口进行数据查询,最终在kibana上进行日志的查看。Kibana除了日志查看,还提供了视图配置以及看板配置的方式,方便对ES中的日志数据进行统计分析以及展示。
监控点:日志中打印的信息,如接口调用次数/成功率、关键错误日志出现次数、关键接口的处理时延等。
解决问题:业务功能正常但存在隐患、系统被频繁调用攻击、业务功能出现异常时业务无感知。
检测频率:支持配置(目前考虑性能,配置为每小时检测一次)。
告警阈值:根据不同监控项设置不同告警阈值(邮件告警阈值和短信告警阈值区分开),如:
告警方式:邮件、短信。
实战: Marketplace偶现告警,显示查询订单号请求失败:
经分析,该请求处理失败,是由于请求参数错误导致,业务逻辑为正常处理,针对该部分告警,计划梳理出正常的错误场景,并从告警判断范围中剔除。
准确度:和配置相关,配置准确的情况下,不会误报。如果误报,需要逐步完善告警场景。
六、CDN
介绍:统计经过CDN的访问情况,使用量以及相关错误等,出现访问问题时,会进行相关告警。
监控点:静态域名命中率和回源成功率。
解决问题:静态资源CDN命中率低或者回源成功率低时业务无感知。
检测频率:可配置,最短5分钟。
告警阈值:命中率和回源成功率低于某个阈值(可配置),即产生告警。
告警方式:邮件。
实战:2017年12月日收到CDN命中率低告警,经过排查为CDN某区域网络不稳定,通过给CDN提工单,由CDN侧排查解决。
准确度:专注于静态资源加载情况进行监控,和CDN自身的稳定性存在关联,可能存在误报。
七、总结:
以上六大监控告警渠道,覆盖了从主机资源、网络、业务进程、关键功能特性、用户体验等各个监控点,不仅解决了系统异常业务不能及时感知的痛点,也为后续系统优化提供了历史监控数据,优化效果亦可通过一个时间段内的数据对比来确认。当前各大监控告警系统虽已对接使用,从历史事件来看也确实起到了关键的监控告警作用,但随着业务的不断成熟,监控告警系统还需要不断的调优,如减少不必要的误报、完善更多的拨测用例、关键特性提高告警敏感度等,整体目标是异常及时发现,缩短业务异常时间,减少对华为云品牌的影响。
— END —
别忘了给 华为云门户团队 点赞呦!
快来留言吧 ^ , ^!
长按二维码关注“THINK”(ID:hw-Think)
点击“阅读原文”,进入华为云官网 !
以上是关于你想不想看看,华为云门户的六维系统监控?的主要内容,如果未能解决你的问题,请参考以下文章
教你搭建一个Telegraf+Influxdb+Grafana 监控系统
教你搭建一个Telegraf+Influxdb+Grafana 监控系统