屋漏偏逢连夜雨,一连两周微软云计算服务大宕机

上周,某个主要的Azure Active Directory(AD)目录服务身份验证问题对全世界的用户造成极大影响。本周稍晚之际又紧接发生Exchange / Outlook宕机问题,影响了欧洲和印度的Office 365 / Microsoft 365顾客。本周,微软(Microsoft)云计算服务中断问题仍在继续,造成Exchange、Outlook、Teams和SharePoint用户的诸多不便。

微软继续对一些Office 365 / Microsoft 365客户发出警告,因为本周仍会有Exchange / Outlook残留问题的出现与影响,包括访问系统管理中心问题,以及移动版Outlook与PC机版Outlook之间的同步问题。这些问题是否与上周Azure AD目录服务身份验证问题有关(有可能没关联),微软官方并没有明确的答复。

10月7日,用户(主要是美国用户)开始在美东时间下午通报,他们在访问系统管理中心仪表板时遇到了问题。大约美东时间下午2时30分左右,用户通过Twitter和其他社交渠道通报他们无法访问Microsoft 365服务,包括Teams、Exchange Online、Outlook.com、SharePoint Online和商务用OneDrive。同时,在Azure状态页面上弹出有关Azure AD和Azure网络服务(Azure Networking)出现问题的警示窗。

美东时间下午4:00左右,一些Office 365 / Microsoft 365的顾客开始回应他们的服务正在恢复。但也有一些用户表示,即使在美东下午5点,他们仍然无法访问M365管理中心。

组态变更部署及网络基础设施变更分别导致Azure及365中断

Azure团队大约在同一时间里发布了有关用户访问微软Azure服务问题的初步根本原因分析。微软在该报告中指出,大约在美东时间下午2点到3点40分之间,一小部分客户遇到了跨区域连接某些可运用Azure网络基础设施之资源的问题。微软官方表示:“同一区域中具有本地依赖关系的资源应该不受影响。”

微软确定“最近对广域网络(WAN)资源所进行的变更之举,导致连接延迟或区域之间的中断”会是原因。为了缓解这种情况,Azure团队将最新的变更改回到正常组态。

周四早些时候,Azure团队另外注意到,部分客户使用Azure Front Door负载均衡方案时遇到了流量被路由到“不安全后端”的状况。微软将该问题归因于“组态变更部署导致错误的流量路由”,并通过还原变更来修复这个问题。

Microsoft 365团队则将无法访问服务的问题归因于“网络基础设施变更”,这可能对许多Microsoft 365服务造成影响,包括Teams、Outlook、SharePoint、商务用OneDrive和Outlook.com。该团队还表示,周四下午他们增加了额外的带宽容量,以处理“观察到的系统管理中心流量暴增”问题,该问题是由于采取类似影响之先前事件的缓解措施所导致的。

在上周的Azure AD问题(由于错误的变更测试,再加上回复失败所导致)之后,本周接踵而至的服务中断对于微软云计算的声誉来说,势必会有一定程度的打击。

(首图来源:微软)