亚马逊Web服务(AWS)表示人为错误导致云存储系统中断,这持续了数小时,本周早些时候影响了数千名客户。
Amazon的简单存储服务(S3),它提供了对网站,应用程序和其他云服务的后端支持,并在美国周二的早晨遇到技术困难,将错误消息返回到试图使用它的人。
云服务巨头在验尸后博客文章中揭示了原因,并解释了这个问题可以追溯到一些探索性工作,其工程师正在做的事情来建立S3计费系统的表现如此缓慢。
在此过程中,一些服务器 - 为两个S3子系统提供基本支持 - 被意外地删除,需要完全重启,这导致了问题。
“使用已建立的PlayBook的授权S3团队成员执行了一个命令,该命令旨在为S3计费过程使用的S3子系统之一删除少量服务器,”博客文章说。
“不幸的是,命令的一个输入中的一个输入被错误地输入,并且删除了服务器的大于预期。”
这种受影响的S3实例在美国弗吉尼亚州的公司的美国East-1 DataceRe地区耗尽,导致一些高调的网站和服务提供商,包括基于云的协作平台,框和即时和组消息传递网站,松弛。
中断也对来自美国东-1托管的多个AWS服务的敲击影响,依靠S3进行后端支持,包括Amazon Elastic Computer Cloud(EC2),AWS Elastic Block Store和AWS Lambda。
它还导致AWS服务状态页面停止工作,导致用户的问题敏锐地查明该公司的系统备份并再次运行。
停机时间促进了许多行业评论员,谈论涉及涉及的涉及单一云提供商的基础设施的风险,而其他行业评论员则抓住了其他人,以加强拥有强大的业务连续性战略的重要性。
然而,AWS载一起来它的平台是强烈的弹性,但S3的全尺度重启比预期更长。
“我们假设事情偶尔会失败的假设建立我们的系统,我们依靠将能力移除和替换为核心操作流程之一,”帖子说。
“虽然这是我们依赖于S3的推出以来维护我们的系统的操作,但我们还没有完全重新开始在我们的较大区域中的索引子系统或放置子系统多年。
“S3在过去几年中经历了大量增长,并且重新启动这些服务并运行必要的安全检查以验证元数据的完整性的过程比预期更长,”它添加了。
该事件提示AWS重新评估其S3基础设施的设置,博客文章继续,防止将来发生类似的事件。
“韦弗为这次活动为我们的客户造成的影响道歉。虽然我们为我们的长期记录提供了亚马逊S3,但我们知道这项服务对客户,应用程序和用户以及其业务的重要性。我们将尽一切努力从此次活动中学习,并使用它来提高我们的可用性,“它结束。
版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。