机器学习有5种偏差，会让你的AI做出错误决策！

开发一个AI，需要经过数据收集、数据清洗、训练算法、部署等步骤；数据科学的所有子领域（例如机器学习、自然语言处理）也需要通过数据来构建、训练与开发核心算法。算法的品质，取决于数据集的品质与数量，若中间有一个环节出错，就会层层放大，影响AI算出的最终结果。机器学习偏差（machine learning bias）指的是，因为机器过程中出现不准确的假设，导致AI产生结果不正确的状况。

数据科学家的重要任务，就是减少与防止机器学习偏差，而防止偏差的最好方式，就是了解偏差发生的原因。一旦原因确定，就能采取行动来消除。量子运算博士生Sara A. Metwalli分享机器学习偏差的5种类型、它们如何发生，以及如何减少影响，提供给AI模型开发者参考。

机器学习偏差的5种类型

1. 算法偏差（algorithmic bias）

算法偏差指的是机器学习过程中，核心算法有问题或不适合当下的应用时所发生的错误。若算法处理相似案例却给出不同的结果，就需要回头检查算法是否有问题。这可能是算法核心的技术问题，也可能是算法本身并不适合应用在此场景。

2. 样本偏差（sample bias）

样本偏差源自于程序开发早期，数据收集与清理过程的错误。若开发者选择一个错误的、规模小的、包含很多问题数据点的，或是无法代表整个数据库的数据样本来训练，那就有可能训练出不准确的机器学习模型。

好消息是，样本偏差的修复并不复杂，可以使用更大、更多样化的数据集来训练模型。可以多次训练它，观察它的行为，并调整参数以达到最佳答案。

3. 偏见偏差（prejudice bias）

偏见偏差这往往源自于数据一开始就有偏差，例如刻板印象或错误的案例假设。若使用这些数据，无论用什么算法，结果都会有偏差。

能见偏差不容易解决，可以尝试使用全新的数据集，尝试修改数据以消除现有的偏差。

4. 测量偏差（measurement bias）

这发生在数据的收集阶段。数据往往是通过人或计算机测量与计算，然后再存储于数据库中。若计算、测量有问题，就会产生错误的数据，影响机器学习模型的结果。

5. 排除偏差（exclusion bias）

若重要的数据被排除于数据库，就会产生排除性偏差，模型也会得不到关键数据，造成运算结果的错误。

了解并消除偏差，是数据科学家的重要技能

当今有越来越多的机器学习导入商业应用，协助人类决策，例如决定推荐什么广告，是否批准贷款，以及给面试者打分数等等。但这些系统可能有偏差，因而造成错误的决策。而偏差取决于训练模型的数据，以及构建模型的人。要消除偏差，就需要了解它们有哪些类型、为什么出现，以及出现在开发过程中的那些位置。

寻找并消除偏差并不是精确的科学，而是一种“艺术”，一种必须创建创建在经验的技术。随着数据、AI重要性提升，了解偏差造成的原因，并磨练消除偏差的技能，创建相关经验，是数据科学家职业生涯发展的重要学习。

参考资料

《Towards Data Science》