Gremlin希望将“混乱工程”带入云群众

2021-01-01 17:50:00来源:

早期的飞行员将事故归咎于调皮的精灵,他们称之为“妖怪”。这些故事在第二次世界大战期间广受欢迎。

由Netflix,谷歌,亚马逊和其他网络规模的公司的工程师创立的一家名为Gremlin的初创公司正寻求通过使用“混沌工程”来增强系统防御能力,从而帮助企业提高云应用程序的可靠性。

企业云新闻(Banking Technology的姊妹出版物)报道说,该系统在受控的基础上取出了Internet应用程序的组件(例如,独立的服务器或连接),以测试系统是否正常恢复。Gremlin首席执行官兼联合创始人Kolton Andrus告诉《企业云新闻》,这些计划内的停机可帮助工程师面对真正的,计划外的停机和损坏,提高系统的弹性。

Gremlin是由Amplify Partners和Index Ventures进行的875万美元融资,在今天(12月12日)开始秘密进行,并使其服务全面上市。客户包括Twilio和Expedia,Andrus说。

Netflix通常以开发混乱工程而著称,从所谓的“混乱猴子”工具开始。如2011年Netflix技术博客上所述,“混乱的猴子”是“一种工具,它会随机禁用我们的生产实例,以确保我们能够在不遭受任何客户影响的情况下幸免于此类故障”。该工具的工作方式就像Netflix在其数据中心中“释放出一只野猴”一样,破坏了一切。目的是测试组件故障,以确保它们不会破坏整个服务。

Netflix开发了一套完整的工具,称为“ Simian Army”,以测试诸如延迟时间长等故障,以及查找和关闭不符合最佳实践的实例,以及测试是否存在健康和安全违规情况。

安德斯(Andrus)说,当他在亚马逊时,亚马逊与Netflix在大约同一时间从事相同的工作。在此之前,“我们所做的很多事情都是被动的,” Andrus说。“那是w鼠。我们晚上被传呼。我们希望积极主动。”

Andrus随后加入Netflix团队,继续从事故障测试和混乱工程。

现在,Andrus和他的15人团队正在与Gremlin一起,为企业和其他云应用程序开发人员带来混乱的工程技术。

问题是云应用程序使可靠性变得更加困难,Andrus说。在单片数据中心应用程序世界中,可以通过冗余解决许多问题。现在,云应用程序需要大量的微服务,这些服务依赖于第三方的基础架构。

安德鲁斯说:“对于工程师来说,要掌握所有这些内容,理解可能出了什么问题是非常困难的。”

安德鲁斯说,混沌工程就像是注射流感疫苗或疫苗。“这听起来违反直觉,但是注入一点伤害可以帮助我们了解系统的行为方式,并帮助我们增强防御能力。”

Gremlin支持容器,并且与云无关,可与数据中心中的Amazon Web Services(AWS),Microsoft Azure,Google Cloud Platform和裸机服务器一起使用。

该服务依赖于三个关键原则:安全性,安全性和简便性。为了安全起见,每项变更都可以回滚,并且Gremlin还限制了变更的“爆炸半径” –可能造成的损害。

为了安全起见,Gremlin仅通过SSL进行通信,并支持预防措施,例如权限控制,单点登录和基于角色的访问控制。

为了简单起见,Gremlin使用直观的用户界面来引导人们进行实验,报告和控制测试。该服务包括与第三方软件集成的API,以及面向高级用户的命令行界面,Andrus说。

Gremlin测试各种失败类型:CPU故障,磁盘和内存过度消耗,虚拟机故障,容器故障,同步时钟故障,网络问题(例如解析DNS的故障),AWS S3故障等。

“这有点像消防演习,”安德鲁斯说。“您想正确地测试这些东西,想要给人们一个机会,在他们每天摄入咖啡因的时候进行练习。”这样,当真正的失败发生在深夜时,IT就会准备就绪


返回科技金融网首页 >>

版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。


相关文章