Google解释云计算服务故障，因人为错误配置服务器造成网络拥塞

Google的运算引擎在6月3日凌晨3点25分到7点45分之间发生故障，导致多项Google服务包括Google Cloud、G Suite和YouTube都受到影响，也使得不少使用Google云计算构建的第三方服务无法使用，Google正式说明事件的调查结果，造成故障的原因是，Google错误配置多个区域的服务器，使得网络容量减少一半以上，许多封包被丢弃。

由于Google将原本要应用到单个区域小数量的服务器配置，错误应用到了跨多个相邻区域的大量服务器上，导致这些区域的网络容量减少一半以上，而剩余的网络容量无法负荷这些区域原本的流量，因此造成严重的网络拥塞，而Google的网络管理机制自动抛弃了较大且不重要的封包，并优先发送较小且对延迟敏感的封包，而这也产生少部分服务仍得以运行的不稳现象。

总结来说，这次事件是因为Google错误更改配置，才造成云计算服务故障。在事件发生当下，Google工程团队立刻发现了错误，但是因为网络拥塞，反而增加工程团队修复问题的困难度，因此使得修正错误花费的时间远超过预期。

Google云计算服务故障造成了YouTube观看次数下降10％，云计算存储流量减少30％，约影响了1％的活跃Gmail用户，Google表示约是数百万的用户无法收发电子邮件，而对于Google搜索服务来说，因为使用的带宽很小，而且在故障发生当下，Google网络将用户立刻切换到了不受影响的区域，因此用户顶多只感觉到延迟增加而已。

Google提到，虽然所有服务已经恢复正常，不过他们仍在进行彻底的调查，以了解网络的容量减少以及恢复缓慢的所有原因。