Atlassian说明断线原因出在更新服务搞乌龙

协同软件Confluence及Jira服务软件的供应商Atlassian网站4月初断线使多项软件用户无法使用云计算服务,估计还要4月下旬才能完全恢复服务。经过2个星期Atlassian高层上周说明断线原因,是更新服务过程中团队沟通及技术失误造成。

上周的说明中,Atlassian首席技术官Sri Viswanath表示断线并非出于网络攻击,或是系统大规模运行的错误,而是关闭旧式软件时出现操作失误。Atlassian为了推出Jira服务管理及Jira软件的集成式App,名为Insight–资产管理,必须关闭客户网站的旧App。

原有计划是工程团队提出要求,提供App的ID,由另一个团队执行维护script来关闭旧App执行实例。但提出要求的团队给错了,给成了整个云计算网站的ID。而执行关闭App任务的团队,原本应该使用日常维护专用、可回复作业的删除模式,却不慎使用了“永久删除”的模式,后者是用于法规遵循目的的删除任务。两项错误集合起来,导致将近400家托管在AWS上的客户网站遭到删除。

发生断线事故后,该公司工程团队必须从备份回复网站。4月5日起,Atlassian是以1次最多60个租户批次回复。每批完整作业需4到5天,这也使得回复作业大幅拉长。

Viswanath承认Atlassian团队的回应时间的确未达标准,他们更新为同时进行多个批次作业,以加速服务回复。此外,过去网站回复是半自动作业,这是因为需要人工验证每个网站的客户资料,现在他们也转向“更为自动化”的流程。

该公司表示,到4月12日为止,所有受影响的用户中99%的用户服务已经回复。大部分回复的客户中,都没资料损失,但仍然有客户表示,事件发生前损失最高5分钟的资料。

根据Atlassian网站,Jira Software、Jira Service Management、Jira Work Management、Confluence、Opsgenie、Atlassian Access、Atlassian Developers、状态页等网站仍然显示有问题。

Atlassian表示,除了加速回复剩下的客户网站,该公司将提供1对1支持,通过工单每日回应,以及事后报告。