高可用

Posted jiaozg

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了高可用相关的知识,希望对你有一定的参考价值。

高级研发工程师和架构师的区别不在于掌握了多少技术,而在于你所能驾驭系统的边界。这其实也反映了一个研发工程师的成长历程,起初独立负责一个功能,然后负责一个系统模块,再负责一个系统,最后负责多个系统或业务条线。

服务等级协议(Service-Level Agreement,SLA)

  • 一般来讲,2 个 9 表示系统基本可用,年度不可用时间小于 88 小时。

  • 3 个 9 是较高可用,年度不可用时间小于 9 个小时。

  • 4 个 9 是具有自动恢复能力的高可用,年度不可用时间小于 53 分钟。

  • 5 个 9 指极高的可用性,年度不可用时间小于 5 分钟。

在电商平台中(比如淘宝、京东、拼多多),系统可用性大多是 4 个 9

先摆明度量的两种方式,“N 个 9” 和 “影响请求量占比”,然后再结合实际业务场景表明第二种方式的科学性。

要有一个思路的闭环,“可评估”“可监控”“可保证”

  • 如何评估系统高可用?

  • 如何监控系统高可用?

  • 如何保证系统高可用?

监控系统包括三个部分:基础设施监控报警、系统应用监控报警,以及存储服务监控报警。

监控报警指标分为两种类型。

 

  • 系统要素指标:主要有 CPU、内存,和磁盘

  • 网络要素指标:主要有带宽、网络 I/O、CDN、DNS、安全策略、和负载策略。

监控工具常用的有ZABBIX(Alexei Vladishev 开源的监控系统,覆盖市场最多的老牌监控系统,资料很多)、Open-Falcon(小米开源的监控系统,小米、滴滴、美团等公司内部都在用)、Prometheus(SoundCloud 开源监控系统,对 K8S 的监控支持更好)。这些工具基本都能监控所有系统的 CPU、内存、磁盘、网络带宽、网络 I/O 等基础关键指标,再结合一些运营商提供的监控平台,就可以覆盖整个基础设施监控。

  • 系统应用监控

系统应用监控报警的核心监控指标主要有流量、耗时、错误、心跳、客户端数、连接数等 6 个核心指标,监控工具有 CAT、SkyWalking、Pinpoint、Zipkin 等。

  • 存储服务监控

 DB、ES、Redis、MQ 

有一个全局的监控视角,比掌握很多监控指标更为重要

 

 

以上是关于高可用的主要内容,如果未能解决你的问题,请参考以下文章

Linux企业运维——Hadoop大数据平台(下)hdfs高可用Yarn高可用hbase高可用

Linux里面啥是高可用?

SpringCloud实现高可用

架构高可用高并发系统的设计原则

Flink JobManager高可用性(HA)

seata(seata配置 高可用)