打造云原生时代高可用验证能力-混沌工程实践

Posted 又一村IT铺

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了打造云原生时代高可用验证能力-混沌工程实践相关的知识,希望对你有一定的参考价值。


打造云原生时代高可用验证能力-混沌工程实践 

近日山东公司通过可视化运维平台集成chaosblade能力打造的混沌演练手术台正式上线并通过了总部组织的演练测试,标志着随着云原生的演进,高可用演练方式进入一个新阶段。

打造云原生时代高可用验证能力-混沌工程实践
打造云原生时代高可用验证能力-混沌工程实践


背景

   

    云原生时代,大部分的服务形态都是分布式架构,而在分布式系统架构下,服务间的依赖日益复杂,更难评估单个服务故障对整个系统的影响;并且请求链路长,监控告警的不完善导致发现问题、定位问题难度增大,如何持续保障系统的稳定性和高可用性受到很大的挑战。

   山东公司已经实现了核心应用的容器化部署,并向微服务化积极推进。新架构消除了单点故障,但也引入了更多复杂的问题,如数据一致性、限流设计、微服务容错保护、分布式链路跟踪等,传统业务测试验证方法难以覆盖和测试到这些特性,也无法模拟如网络延迟、CPU满载、请求异常、依赖故障、硬件故障等场景。在此情况下,混沌工程应运而生。



1

 “双剑合璧”

   为了提升云原生时代的高可用验证能力,山东公司使出“chaosblade”和“可视化运维平台”两把利剑。通过可视化运维平台集成chaosblade成熟的混沌演练技术,融入了丰富的故障场景,“双剑合璧”,实现了演练的可控化、可视化。

   ChaosBlade 是一款开源的遵循混沌工程实验原理,提供丰富故障场景实现,帮助分布式系统提升容错性和可恢复性的混沌工程工具,可实现底层故障的注入,特点是操作简洁、无侵入、扩展性强。


打造云原生时代高可用验证能力-混沌工程实践

   可视化运维平台提供“场景化、标准化、白屏化”的自动化运维能力,对软件部署、告警处理、应急响应、资源开通、运维操作等进行一站式自动化处理,大幅提升运维效率。


打造云原生时代高可用验证能力-混沌工程实践



2

 “剑指苍穹” 

   通过chaosblade工具和可视化运维平台对庞大的、关系错综复杂的IT系统服务架构进行考验,针对基础资源、应用服务、容器服务等场景展开不同类型的故障注入,弹性对抗,从而发现系统弱点,进而帮助系统提升容错性和可恢复性,保证在故障真正发生时,能够有一套完备的应对措施和故障解决方案。


打造云原生时代高可用验证能力-混沌工程实践



3

 “混沌剑谱” 

   针对此次混沌演练,山东公司综合本地IT系统服务架构,淬炼出一批演练场景,全方位的针对系统的包括应用服务、缓存中间件、服务发现、资源平台等各个层面进行故障模拟。实现业务验证的完整性、故障场景的全面性以及故障演练的深入性。从而保证能够真正意义上的体现混沌演练的意义、实现混沌演练工程的价值。

打造云原生时代高可用验证能力-混沌工程实践 打造云原生时代高可用验证能力-混沌工程实践

左右滑动查看更多



4

 “决战之夜”

   20200927日晚,山东团队组织演练团队成员,紧锣密鼓的打响了混沌演练的第一仗,针对各个生产环境场景进行了实战化的演练。锁定演练目标、部署演练计划、实施演练任务。展开了一场空前的混沌之战,各项工作顺利完成,充分验证了混沌演练工程的可用性。

打造云原生时代高可用验证能力-混沌工程实践





END

————



关于我们


编辑:王维


投稿信箱: 13608929770@139.com


                  




 



以上是关于打造云原生时代高可用验证能力-混沌工程实践的主要内容,如果未能解决你的问题,请参考以下文章

云原生背景下故障演练体系建设的思考与实践—云原生混沌工程系列之指南篇

云原生背景下故障演练体系建设的思考与实践—云原生混沌工程系列之指南篇

云原生 | 混沌工程工具 ChaosBlade Operator 入门篇

面向云原生的混沌工程工具-ChaosBlade

云原生 | 混沌工程工具 ChaosBlade Operator 入门篇(文末赠书)

云原生时代,我们为何离不开混沌工程?