本文要点
- 软件应用变得越来越复杂,停机的成本愈加昂贵,消费者对停机的容忍度也越来越低。
- 混沌工程还不是很主流,但本次问答的受访者大都认为它已经走出了创新阶段,进入了应用曲线的早期使用阶段。在组织内部,事件响应和缓解措施变得越来越重要,优先级不断上升。
- 混沌工程的核心理念已经很完善了,在过去的几年中社区对它的理解更为广泛和深刻。工程师开始理解它是实验和信息共享的有原则实践,并不是什么完全随机攻击的神话。
- 软件工程师一直在生产中做测试(即使他们没有意识到这一点)。混沌工程可以提供更正式的方法。
- 通过事件响应策略和管理演练游戏日之类的形式关注人员和流程可以显著提升价值。与大多数技术变革一样,新理念普及的最大障碍往往是人们自身。关键在于找出实践的合理性,设定期望并在整个组织中建立信任。
- 太多的人认为构建和运行系统的目的是不要犯错误。当他们意识到出色的系统并不完美,而是有弹性的,那么组织自然就能开始理解混沌工程及其实践的优势。
- 混沌工程的一个好处是你不需要很多工具就能启动。例如,你可以使用Linux的本地kill命令来停止进程和iptables来造成网络连接问题。
- 谷歌的团队会做DiRT(灾难和恢复测试),他们走进数据中心对服务谷歌内部系统的机器“造成可怕的后果”,例如拔掉硬件等。组织的规模没有那么大的话,也有侵入性较小的开源和商业工具可用。
- 为了从混沌工程的投资中获益,组织首先需要建立一种从事件中学习的文化。没有这种学习过程,投资可能就无法创造价值,并令人感到沮丧。观察系统并了解停机时间的影响也是关键所在。
第二届混沌大会活动于9月25日至26日在旧金山举行,InfoQ也将报道活动概况。在为大会做准备时,InfoQ与许多演讲者坐下来讨论了众多话题,诸如混沌工程的演变和应用、进行混沌实验时相关人员和流程的学习重点以及主流应用的最大障碍等。
希望深入学习混沌工程的读者可以参阅最新版的混沌社区日v4.0的摘要、混沌工程电子杂志以及有关弹性系统的多份QCon演讲的摘要。
InfoQ:非常感谢几位参加2019混沌论坛的会前问答。请各位简单介绍一下自己。
Jason Yee:我是Datadog的高级技术传播者。Datadog是基于SaaS的可观察性平台,使开发人员、运营和业务团队可以更好地了解用户体验和应用性能。
Caroline Dickey:我是Mailchimp的网站可靠性工程师,这是一个针对小型企业的多合一营销平台。我构建工具和配置以支持工程运作,并发展监视和服务级别的目标以改善我们应用程序的健康水平;我领导了Mailchimp的混沌工程计划。