不需要标记资料,BigQuery ML提供易用的资料异常侦测模型

Google在BigQuery ML中加入新的异常资料检测功能,该功能利用无监督机器学习来检测资料异常,因此用户不需要提供标记训练资料。用户可以开始使用ML.DETECT_ANOMALIES函数,并且选用自动编码器模型、k-平均算法模型或ARIMA_PLUS时间串行模型,来检测训练资料或是新输入资料中的异常。

当企业拥有已标记的异常资料,就可以利用各种监督式机器学习模型,来找出资料中的异常,但是Google提到,不少组织难以定义异常,无法判断网络入侵、制造瑕疵或是保险欺诈等情况,当组织无法确定异常情况,而且手上也没有标记资料,便无法使用典型的预测技术。

而BigQuery ML新加入的资料异常侦测,可以解决这个问题,降低应用异常侦测的障碍。BigQuery ML提供3种现成的模型,当用户要检测非时间串行资料中的异常,可以使用k-平均算法,模型会根据每一个输入资料点,到最近群集的范式距离,来判断异常资料,如果该距离超过用户设置的污染数值阈值,则资料点便会被判定为异常。

而自动编码器模型则是根据每个人信息料点重建错误,来识别异常资料,当错误超过由污染数值所定义的阈值,便会被模型判定为异常。另外,ARIMA_PLUS时间串行模型,会根据时间戳的信赖区间来判定异常,当时间戳的资料点,出现在预测区间外的几率,超过用户所提供的几率阈值,则资料点会被判定为异常。

发表评论