Azure Outage 5 Hours Due to Admin's Sleep

微软承认3月底欧洲客户受到长时间中断影响，花费了5个小时休整。通知客户的任务依赖于一名美国事件经理，而他当时正在睡觉。

图片[1]-Azure Outage 5 Hours Due to Admin's Sleep - Microsoft

延误影响了欧洲和英国的客户，从3月24日协调世界时上午9点左右开始，持续了三天。然而，在一开始，当用户在极其缓慢的Azure服务中挣扎的时候，微软就错过了它在10分钟内承认问题的巨大差距的目标。

在事后调查中，Azure的工程总监Chad Kimes承认，微软“在这一事件期间的沟通也存在问题”，并就此事给6136名受影响的客户带来的挫折和困惑表示道歉。

在COVID-19冠病毒大流行期间，由于对Azure计算资源的需求激增，导致了虚拟机容量的限制，导致了21分钟的延迟，影响了微软的DevOps服务，该服务发布了针对Azure中Windows和Linux代理的新版本。据Kimes说，最长的延误是9个小时。

“这里的问题是，我们的现场流程对这类事件有一个缺口，”Kimes谈到沟通问题时说。

“当事件涉及到客户请求失败或性能影响时，我们有自动的工具来启动事件，并在DRI(指定负责个人)和PIM(主要事件管理器)中循环。PIM通常是负责发布承认该事件的外部通信的人，”他补充道。

管道延迟由不同的工具检测到，PIM当前没有为这些类型的事件分页。因此，当DRI努力理解技术问题并寻找潜在的缓解方法时，PIM仍然处于休眠状态。只有当PIM在美国东部大约营业时间开始时加入事故桥时，事故才最终得到承认。”

微软表示，它正计划改进其现场流程，以“确保管道延迟事件的初始通信与其他类型的事件在相同的时间发生”。

该公司还推出了架构更改，以减轻从其托管代理池中生成新代理的瓶颈。

文章版权归作者所有，未经允许请勿转载。

THE END

微软：Azure延迟5小时，因为管理员睡着了