Google解释云计算服务故障,因人为错误配置服务器造成网络拥塞

Google的运算引擎在6月3日凌晨3点25分到7点45分之间发生故障,导致多项Google服务包括Google Cloud、G Suite和YouTube都受到影响,也使得不少使用Google云计算构建的第三方服务无法使用,Google正式说明事件的调查结果,造成故障的原因是,Google错误配置多个区域的服务器,使得网络容量减少一半以上,许多封包被丢弃。

由于Google将原本要应用到单个区域小数量的服务器配置,错误应用到了跨多个相邻区域的大量服务器上,导致这些区域的网络容量减少一半以上,而剩余的网络容量无法负荷这些区域原本的流量,因此造成严重的网络拥塞,而Google的网络管理机制自动抛弃了较大且不重要的封包,并优先发送较小且对延迟敏感的封包,而这也产生少部分服务仍得以运行的不稳现象。

总结来说,这次事件是因为Google错误更改配置,才造成云计算服务故障。在事件发生当下,Google工程团队立刻发现了错误,但是因为网络拥塞,反而增加工程团队修复问题的困难度,因此使得修正错误花费的时间远超过预期。

Google云计算服务故障造成了YouTube观看次数下降10%,云计算存储流量减少30%,约影响了1%的活跃Gmail用户,Google表示约是数百万的用户无法收发电子邮件,而对于Google搜索服务来说,因为使用的带宽很小,而且在故障发生当下,Google网络将用户立刻切换到了不受影响的区域,因此用户顶多只感觉到延迟增加而已。

Google提到,虽然所有服务已经恢复正常,不过他们仍在进行彻底的调查,以了解网络的容量减少以及恢复缓慢的所有原因。