Slack服务宕机超过15个小时

始于6月20日登上纽约股市的聊天协作程序Slack,在太平洋时间(PDT)6月28日的早上4:30(当天晚上7:30)因素个服务器宕机,造成许多消息的传递延迟或出现错误,一直到当天晚上7:20(隔天上午10:20)才恢复正常。

根据Slack的说明,当天是因某些服务器无法运行,造成任务处理系统的性能下滑,使得通知、连接展开或发布消息等作业延迟或出现错误,一开始影响了10 ~25%的任务,到了上午10点就把错误率降低至5%。

然而,屋漏偏逢连夜雨,下午1:05时,系统发生了另一个问题,造成服务器重载并遗失大量的用户连接,重新连接又加重了服务器负载,使得回复连接的速度变慢,一直到下午1:36才让所有用户重新连上线。

根据Downdetector基于用户回应的统计,多数Slack用户遭遇到连接问题,其它则是通讯与发送文件出现延迟或错误,影响了包括美国、日本及巴西等全球市场。

所有的服务都在当天晚上7:20时恢复正常,算一算Slack系统不稳定的状况持续了近15个小时。Slack除了向用户致歉之外,也正部署各种预防措施来避免类似的意外再度发生。