什么是混沌工程？| IBM

混沌工程是在生产或预生产环境中有意以受控方式造成故障，以了解故障影响并规划更好的防御态势和事件维护策略。

组织的关键应用程序或基础架构每天都会面临新的故障风险，有可能会威胁到组织向客户提供服务的能力。故障原因可能因各个问题而异，包括安全漏洞、配置错误或服务中断。更多的应用程序和数据托管在云端，更有可能会出现错误或中断，进而可能会导致安全问题增加。

解决中断的一种方法便是混沌工程。这不是工程师终止实例或服务或以其他方式导致系统无故失败的随机过程。此过程可识别未来的潜在问题，使工程团队能够主动解决问题，避免在未来的实际环境中出现这些问题。

混沌工程很重要，因为错误或中断可能会减慢组织的发展势头，随着停机时间的增加，组织要花费大量宝贵时间来即时寻求解决方案。Netflix 在从本地切换到云时亲身体验到了这一点¹（ibm.com 外部链接）；他们经历了一次中断，导致 2008 年的服务交付中断了三天。该情况是在向视频流媒体业务转型之前发生的，否则停机的成本将呈指数级增长。因此，Netflix 决定尽一切可能来最大限度地减少中断，并开始将混沌工程引入其工作流。借助混沌工程，他们能够在问题发生之前识别问题，并在发生不可避免的故障时将损失降至最低。

Netflix 创建了 Chaos Monkey²（ibm.com 外部链接），这是一款开源工具，可在 IT 服务和基础架构中创建旨在识别漏洞的随机事件，当它从私有数据中心迁移到 Amazon Web Services (AWS) 以应对云端的不可靠时，可通过自动恢复程序修复或解决这些漏洞。许多组织现在都使用 Chaos Monkey 来运行其混沌工程实验。

混沌工程是用于应对组织生产环境中的基础架构故障、中断或组件丢失的重要防御措施。可帮助站点可靠性工程师 (SRE) 和 DevOps 团队的其他成员避免服务出现重大中断，更好地了解其漏洞，并了解如何在发生中断时最大程度地减少影响，从而持续交付服务。

因程序的依赖关系不同，即使代码中的一个小问题也可能对整个生产环境产生灾难性影响。例如，金融服务公司的交易软件系统中的错误可能会造成数百万美元的损失³（ibm.com 外部链接）。组织可能无法避免所有 IT 事件，但他们可以通过混沌管理来了解可能的情况及其最佳解决方案，从而最大限度地减少损失。

查看产品导览

利用 IBM Instana Observability，企业中的每个人都能以用户友好的方式访问他们想要的数据和需要的环境，快速预防和修复问题。

脚注

¹ 混沌工程：实际的系统弹性，（ibm.com 外部链接）Casey Rosenthal，Nora Jones，2020 年
²什么是 Chaos Monkey？混沌工程有所解释，（ibm.com 外部链接）InfoWorld，2020 年 5 月 13 日
³Knight Capital Says Trading Glitch Cost It $440 Million，（ibm.com 外部链接）New York Times，2012 年
⁴ There Is No Resilience without Chaos, The New Stack，（ibm.com 外部链接）2023 年 4 月 13 日
⁵ Incident Management in the Cloud Era，（ibm.com 外部链接）Constellation Research，2023 年
⁶ ChAP: Chaos Automation Platform，（ibm.com 外部链接）Netflix 博客，2017 年 7 月 26 日
⁷ The I&O Leader’s Guide to Chaos Engineering，（ibm.com 外部链接）Gartner，2021 年 10 月 28 日