机器学习有5种偏差,会让你的AI做出错误决策!

开发一个AI,需要经过数据收集、数据清洗、训练算法、部署等步骤;数据科学的所有子领域(例如机器学习、自然语言处理)也需要通过数据来构建、训练与开发核心算法。算法的品质,取决于数据集的品质与数量,若中间有一个环节出错,就会层层放大,影响AI算出的最终结果。机器学习偏差(machine learning bias)指的是,因为机器过程中出现不准确的假设,导致AI产生结果不正确的状况。

数据科学家的重要任务,就是减少与防止机器学习偏差,而防止偏差的最好方式,就是了解偏差发生的原因。一旦原因确定,就能采取行动来消除。量子运算博士生Sara A. Metwalli分享机器学习偏差的5种类型、它们如何发生,以及如何减少影响,提供给AI模型开发者参考。

机器学习偏差的5种类型

1. 算法偏差(algorithmic bias)

算法偏差指的是机器学习过程中,核心算法有问题或不适合当下的应用时所发生的错误。若算法处理相似案例却给出不同的结果,就需要回头检查算法是否有问题。这可能是算法核心的技术问题,也可能是算法本身并不适合应用在此场景。

2. 样本偏差(sample bias)

样本偏差源自于程序开发早期,数据收集与清理过程的错误。若开发者选择一个错误的、规模小的、包含很多问题数据点的,或是无法代表整个数据库的数据样本来训练,那就有可能训练出不准确的机器学习模型。

好消息是,样本偏差的修复并不复杂,可以使用更大、更多样化的数据集来训练模型。可以多次训练它,观察它的行为,并调整参数以达到最佳答案。

3. 偏见偏差(prejudice bias)

偏见偏差这往往源自于数据一开始就有偏差,例如刻板印象或错误的案例假设。若使用这些数据,无论用什么算法,结果都会有偏差。

能见偏差不容易解决,可以尝试使用全新的数据集,尝试修改数据以消除现有的偏差。

4. 测量偏差(measurement bias)

这发生在数据的收集阶段。数据往往是通过人或计算机测量与计算,然后再存储于数据库中。若计算、测量有问题,就会产生错误的数据,影响机器学习模型的结果。

5. 排除偏差(exclusion bias)

若重要的数据被排除于数据库,就会产生排除性偏差,模型也会得不到关键数据,造成运算结果的错误。

了解并消除偏差,是数据科学家的重要技能

当今有越来越多的机器学习导入商业应用,协助人类决策,例如决定推荐什么广告,是否批准贷款,以及给面试者打分数等等。但这些系统可能有偏差,因而造成错误的决策。而偏差取决于训练模型的数据,以及构建模型的人。要消除偏差,就需要了解它们有哪些类型、为什么出现,以及出现在开发过程中的那些位置。

寻找并消除偏差并不是精确的科学,而是一种“艺术”,一种必须创建创建在经验的技术。随着数据、AI重要性提升,了解偏差造成的原因,并磨练消除偏差的技能,创建相关经验,是数据科学家职业生涯发展的重要学习。

参考资料

《Towards Data Science》