MIT找出能使神经网络体积缩小的80/20分析法

麻省理工学院计算机科学和AI实验室最近发布一篇缩小神经网络的论文,能在不改变准确率的情况下,找出与最终结果预测相关的子网络,该子网络相比原本的神经网络小10倍,有时候子神经网络,甚至能够比原本的网络更快做出预测。

MIT指出,目前大部分的AI都创建在深度神经网络的预测结果上,而神经网络通常相当庞大,且需要大量的训练数据集,训练的过程也需要耗费数天的时间,硬件方面,也要搭配昂贵的GPU,甚至是需要定制化所需的硬件设备,但是,如果其实根本就不需要这么庞大的神经网络呢?

现在缩小神经网络所采取的方法,并非特别有效率,在找到成功的子网络之前,必须针对整个神经网络进行多次的训练和修剪,但是MIT的教授Michael Carbin表示,若能够准确地在原始的网络中,找出与最终预测相关联的部分,科学家就有可能可以跳过这段昂贵的处理过程,找出这样的关联性,能够省下数小时的工作,还能让个别的开​​发者,更简单地打造出有意义的模型,而不是只有大型科技企业才有能力办到。

MIT团队将传统的深度学习方法比喻成乐透,训练大量的神经网络就像是试着盲目地买所有可能会中奖的票券,有没有可能,在一开始就选择中奖的号码呢?为了测试所谓的“乐透票券假说”(lottery ticket hypothesis),并证明与最终预测结果相关的子神经网络确实存在,团队首先通过常用的方法,从训练网络中,将最低权重的连接修剪掉,通过去除不必要的连接,使得神经网络能够在低功设备上执行,像是智能手机。

这项实验关键的创新想法在于,在神经网络训练后修剪掉的连接,是不是再也不需要,为了测试这项假设,团队试着再一次训练同一个神经网络,但是这一次并没有包含被修剪掉的连接,随着修剪越来越多连接,团队就能找出在不影响网络学习的情况下,可以删除多少连接,团队也针对许多不同的网络,重复这个过程上万次,来找出与最终结果预测相关的子网络。下一步,MIT团队计划探索为什么特定子网络对学习特别在行,并开发出找出这些子网络的有效方法。