微软承认3月底欧洲客户受到长时间中断影响,花费了5个小时休整。通知客户的任务依赖于一名美国事件经理,而他当时正在睡觉。
延误影响了欧洲和英国的客户,从3月24日协调世界时上午9点左右开始,持续了三天。然而,在一开始,当用户在极其缓慢的Azure服务中挣扎的时候,微软就错过了它在10分钟内承认问题的巨大差距的目标。
在事后调查中,Azure的工程总监Chad Kimes承认,微软“在这一事件期间的沟通也存在问题”,并就此事给6136名受影响的客户带来的挫折和困惑表示道歉。
在COVID-19冠病毒大流行期间,由于对Azure计算资源的需求激增,导致了虚拟机容量的限制,导致了21分钟的延迟,影响了微软的DevOps服务,该服务发布了针对Azure中Windows和Linux代理的新版本。据Kimes说,最长的延误是9个小时。
“这里的问题是,我们的现场流程对这类事件有一个缺口,”Kimes谈到沟通问题时说。
“当事件涉及到客户请求失败或性能影响时,我们有自动的工具来启动事件,并在DRI(指定负责个人)和PIM(主要事件管理器)中循环。PIM通常是负责发布承认该事件的外部通信的人,”他补充道。
管道延迟由不同的工具检测到,PIM当前没有为这些类型的事件分页。因此,当DRI努力理解技术问题并寻找潜在的缓解方法时,PIM仍然处于休眠状态。只有当PIM在美国东部大约营业时间开始时加入事故桥时,事故才最终得到承认。”
微软表示,它正计划改进其现场流程,以“确保管道延迟事件的初始通信与其他类型的事件在相同的时间发生”。
该公司还推出了架构更改,以减轻从其托管代理池中生成新代理的瓶颈。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END















暂无评论内容