微软、英特尔新AI技术以图片识别找出恶意程序

微软及英特尔周一发布新的AI应用,标榜能以图片识别技术找出恶意程序。

这项技术是由英特尔实验室及微软威胁防护情报小组共同研发而成,名为恶意软件图形静态网络分析(STAtic Malware-as-Image Network Analysis,STAMINA),它是以英特尔既有以深度迁移学习(deep transfer learning)的静态恶意程序分类法为基础,再结合微软提供的真实恶意程序样本进行训练,目的在强化恶意程序的识别速度。

深度迁移学习源为一种计算机视觉技术,简单而言,英特尔发展的恶意程序分类法,是将应用程序二进制档转换成灰阶图片后,加以扫描识别。和传统病毒的静态特征分析一样,原理是同一家族恶意程序,在文本及结构上彼此有相似性。不同家族的恶意程序,以及无害及恶意程序之间则异大于同。

STAMINA包含4大流程:预处理(图形转换)、迁移学习、评估及诠释。预处理主要是将二进制档的1D像素流(pixel stream)转成2D的照片,根据一定方法,依文件大小来决定2D像素流照片的宽度及相应高度。接着将不同像素流照片组合成适合AI处理的大小,喂给一个预先预练过的深度神经网络(deep neural network, DNN),由其分类是良性或恶意程序。

研究人员总共对STAMINA系统模型,喂入220万的恶意程序二进制档散列,及20万笔良性程序的二进制档散列。测试结果,该系统模型的分类准确度达99.07%,而误判(false positive)率为2.58%。

研究人员指出,STAMINA和传统二进制档特征或指纹分析相较,不易被程序代码混淆(code obfuscation)手法影响,也比动态分析省时。虽然它仍然有限制,例如用在分析小型文件比较有效,大型文件则因无法将数十亿像素转换JPEG档,而无法发挥效果,此时比较适合meta data的分析法。