打造云原生时代高可用验证能力-混沌工程实践
Posted 又一村IT铺
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了打造云原生时代高可用验证能力-混沌工程实践相关的知识,希望对你有一定的参考价值。
近日,山东公司通过可视化运维平台集成chaosblade能力打造的混沌演练手术台正式上线,并通过了总部组织的演练测试,标志着随着云原生的演进,高可用演练方式进入一个新阶段。
背景
云原生时代,大部分的服务形态都是分布式架构,而在分布式系统架构下,服务间的依赖日益复杂,更难评估单个服务故障对整个系统的影响;并且请求链路长,监控告警的不完善导致发现问题、定位问题难度增大,如何持续保障系统的稳定性和高可用性受到很大的挑战。
山东公司已经实现了核心应用的容器化部署,并向微服务化积极推进。新架构消除了单点故障,但也引入了更多复杂的问题,如数据一致性、限流设计、微服务容错保护、分布式链路跟踪等,传统业务测试验证方法难以覆盖和测试到这些特性,也无法模拟如网络延迟、CPU满载、请求异常、依赖故障、硬件故障等场景。在此情况下,混沌工程应运而生。
1
“双剑合璧”
为了提升云原生时代的高可用验证能力,山东公司使出“chaosblade”和“可视化运维平台”两把利剑。通过可视化运维平台集成chaosblade成熟的混沌演练技术,融入了丰富的故障场景,“双剑合璧”,实现了演练的可控化、可视化。
ChaosBlade 是一款开源的遵循混沌工程实验原理,提供丰富故障场景实现,帮助分布式系统提升容错性和可恢复性的混沌工程工具,可实现底层故障的注入,特点是操作简洁、无侵入、扩展性强。
可视化运维平台提供“场景化、标准化、白屏化”的自动化运维能力,对软件部署、告警处理、应急响应、资源开通、运维操作等进行一站式自动化处理,大幅提升运维效率。
2
“剑指苍穹”
通过chaosblade工具和可视化运维平台对庞大的、关系错综复杂的IT系统服务架构进行考验,针对基础资源、应用服务、容器服务等场景展开不同类型的故障注入,弹性对抗,从而发现系统弱点,进而帮助系统提升容错性和可恢复性,保证在故障真正发生时,能够有一套完备的应对措施和故障解决方案。
3
“混沌剑谱”
针对此次混沌演练,山东公司综合本地IT系统服务架构,淬炼出一批演练场景,全方位的针对系统的包括应用服务、缓存中间件、服务发现、资源平台等各个层面进行故障模拟。实现业务验证的完整性、故障场景的全面性以及故障演练的深入性。从而保证能够真正意义上的体现混沌演练的意义、实现混沌演练工程的价值。
左右滑动查看更多
4
“决战之夜”
2020年09月27日晚,山东团队组织演练团队成员,紧锣密鼓的打响了混沌演练的第一仗,针对各个生产环境场景进行了实战化的演练。锁定演练目标、部署演练计划、实施演练任务。展开了一场空前的混沌之战,各项工作顺利完成,充分验证了混沌演练工程的可用性。
END
————
编辑:王维
以上是关于打造云原生时代高可用验证能力-混沌工程实践的主要内容,如果未能解决你的问题,请参考以下文章
云原生背景下故障演练体系建设的思考与实践—云原生混沌工程系列之指南篇
云原生背景下故障演练体系建设的思考与实践—云原生混沌工程系列之指南篇
云原生 | 混沌工程工具 ChaosBlade Operator 入门篇