Azure现在能自动分析VM故障原因,助用户快速调试

微软现在让Azure用户可以了解虚拟机发生原因的根本问题,借由使用新的根本原因分析(Root Cause Analysis,RCA)引擎,解析Azure平台设备和服务的遥测资料,经过关联和归因分析之后,对不同故障状况给出根本原因解释。

现有的Azure资源健康状态总览功能,可以协助用户诊断影响Azure服务的问题,该功能会提供当前和过去的运行状况,显示每个人信息源无法使用的时间,但是无法提供发生问题的潜在原因,而现在微软强化Azure资源健康状态总览功能,以提供用户更多有关于资源运行的状况,以及导致问题发生的背景信息。

现在当虚拟机发生可用性问题时,用户除了可以快速获得通知之外,当自动化根本原因分析(RCA)确定导致虚拟机出现故障的Azure平台组件,用户便可查看调查细节。RCA引擎的原理和背后技术核心,源自于Azure资料总管(ADX),这是一个大规模日志遥测分析系统,经优化所提供的资料服务,Azure资料总管能够解析Azure平台设备与服务的数TB日志遥测资料,并且经过综合分析后,给出故障的详细信息。

自动化根本原因分析有几个阶段,第一阶段是定义分析触发事件,RCA需要确认虚拟机是不是在非预期的情况下重新启动,因此触发事件便是从启动状态变成关闭状态的转换,微软解释,在大多数情况下,利用平台遥测资料来识别这些转换很简单,但是在部分类型的基础设施故障时,便会很困难,而且平台遥测可能会因为设备故障或是断电而失效。为了处理这类型的故障,微软必须使用其他类型的技术,像是资料丢失关注,来作为虚拟机运行状态转换的可能指标。

在确认触发事件之后,接下来便要进行相关性分析,Azure平台上的系统,包括主机或是存储等各部分,都有各自的遥测馈送,RCA引擎需要对这些遥测资料进行解析,并找出与虚拟机触发事件的关联,通过了解可能导致虚拟机故障的底层系统相依关系图,将所有相依系统的健康状态集成在一起,过滤时间相近的虚拟机转换事件,来探索相关性。

在相关性分析结束后,输出会是一个人信息料集,来表示虚拟机停机时间相关的平台遥测资料,以提供判断虚拟机故障的可能原因。RCA引擎会根据这个人信息料集,应用归因规则来解释信息,并将其转换成为用户能够理解的消息。

最后一个阶段则是将根本原因发布到Azure资源健康状态总览,供用户查看故障的进一步信息,微软提到,因为信息流可能会因为各种资料延迟,而推延出现的时间,所以在这个过程可能会偶尔更新分析信息,以反映更具体更细节的根本原因。