机器学习系统遵守4Ms最佳实践可大幅减少碳排

机器学习技术已经逐渐被企业普遍应用,而机器学习所产生的碳排量,也开始成为关注的重点,Google在IEEE Computer所发布的机器学习碳足迹论文,通过准确的资料来评估机器学习的实际碳排量,并且提出4Ms原则,可降低使用能源100倍,减少碳排放量1,000倍,Google运用这些最佳实践,将机器学习所占的总能源使用量,压低在15%以下。

4Ms原则分别是模型(Model)、机器(Machine)、机械化(Mechanization)以及地图优化(Map Optimization)。Google指出,选择使用高效的机器学习模型架构,像是稀疏模型,可在提高机器学习品质的同时,还能够降低3倍到10倍计算量。而机器指的是,与通用处理机器相比,使用针对机器学习训练优化的处理器与系统,能够将性能提高至2倍到5倍。

机械化的配置,让数据中心的效率比企业本地端配置要高上不少,使用云计算可减少能源使用,碳排放量减少1.4倍到2倍,Google解释,云计算数据中心是专为上万台服务器设计的仓储,因此可以达到非常好的电量使用效率(PUE),而本地端数据中心通常较老旧,规模也较小,无法摊销新的节能冷却和配电系统成本。

此外,地图优化则是云计算可让用户选择使用能源最干净的位置,进而将总碳足迹减少5倍到10倍,Google也解释,不用担心地图优化会使得最环保的云计算地区,快速达到最大容量,用户对高性能数据中心的需求,反而会驱动绿色数据中心设计和部署的进步。

结合这四种做法,可以使企业减少能源消耗达100倍,更可以降低碳排放量1,000倍。Google的总能源使用量每年都增加,而机器学习工作负载,和每次训练执行的计算量也都迅速增长,但Google表示,运用这4Ms原则,很大程度弥补增加的负载,从资料显示,在过去三年,每年机器学习训练和推理,仅占Google总能源使用量的10%到15%,推理和训练的比例大概是3:2。

Google使用Transformer模型作为例子,说明符合4Ms原则的机器学习运算,可大幅降低能源消耗和碳排放量。Google引用其他研究,对在Nvidia P100 GPU训练Transformer模型的能耗估算作为基准,使用Google最近发布的Primer模型,能以低4倍计算量达到相同精确度,当使用新一代机器学习硬件TPUv4进行训练,会比使用P100改进14倍的能耗,加上高效云计算中心比普通数据中心能耗效率高1.4倍,此外,使用低碳能源的数据中心,又可再减少9倍碳足迹,进而在4年内总共减少747倍碳足迹。