工程师自己标注AI数据、做资料清洗,划算吗?

AI产业里的工程师每天都在做什么?大部分的人应该认为是:“写Coding算法吧!”

其实在导入AI的公司里,“取得训练用的数据(Training Datasets)”才是占绝大多数,因为只有干净、良好的AI数据用于机器学习(Machine Learning),AI工程师或是数据科学家,才能确保自己建造的神经网络模型能够预测出有价值的东西。

善用数据外包,AI模型开发更能事半功倍

AI市场上需要机器学习的领域涉及广泛,如自动驾驶汽车,发票收据识别,道路瑕疵检测,交互电影推荐等需要许多来自不同领域的大量数据:由简单到复杂、由普遍至特定专业领域的数据类型,如视觉图片、文本、音频、传感器数据等。

说到底,工程师遇到的困难,就是人一天只有24小时。根据团队观察,愈成功好产品、越成功的AI公司,关键往往在于:比起完全花心力创建算法模型,他们更专注在前期快速、大量地搜集有用的数据!

但如何让AI工程师及数据科学家,能拥有足够经过训练的数据,专注于改进模型呢?

“数据外包策略”(Data Annotation Outsourcing)的概念,为这项棘手的核心问题提供解答。将数据标注外包给专业团队,有两大好处:

1. 通过专业团队管控,厘清数据标注原则并确保标注品质

2. 让工程师可以专业分工,将时间精力专注在AI模型训练上

AI数据外包后,如何确保外承包商品质?

人工智能是发展中的产业,许多AI项目的投入都处在研发或概念验证(POC)阶段,因此在让计算机学习人脑的过程中,喂养数据和训练算法,必须依赖双向且多循环的验证,不断累计小成功才能让AI项目顺利进行。

因此,当企业考虑“外包数据”时,能及时回应和持续保持高品质产出,进而协助AI模型开发加速是重要关键。包括:前期数据标注原则的确定、数据收集、数据清洗,后段的图资确认、标注成效反馈,都需要外包团队的PM具备高度产业知识,及花费大量的时间与客户频繁的沟通以确保项目的成效。

不只与客户对接需要专业沟通,外包团队能否让众多AI数据标注师,在面对不同产业的数据时都能保持专业与品质,也是一大要件。若水AI团队累计过去几年处理上百个案子的经验,通过科技与数据力,打造以下四项数据处理机制。

1. 数据智能派工:

若水针对以往上百例的AI项目进行大数据分析,根据项目属性由系统自动推荐擅长处理该数据类型的AI数据标注师并进行标注工作的指派。通过大数据智能派案实践“Right people in the right loop”的精神,并提升项目管理的性能及数据标注的品质。

2. 线上工作平台即时监控:

为了同时与全台数百位居家远程的AI数据标注师即时交互,PM除了线上即时监控标注师的工作状况,以确保产能符合交付期程外,全数字化的流程设计,当项目出现问题时可以直接找出问题点即时处理,后续也能不断优化流程。

3. 多样智能标注工具:

为了解决AI数据项目的多样性,集成对身障者友善的UX/UI智能标注工具箱,让身障者在减轻身体负担的同时提升品质与速度。

4. 弹性人力后援制度:

除了导入科技工具强化管理性能外,当产线出现问题时,后援机制随时能够进场让产线快速恢复产能。若水以资深AI标注师及标注品管人员(QC)组成“机动后援小组”,他们因过去丰富的AI数据标注经验,累计了专业的标注技能及深厚的产业知识,因此能够在项目出现状况时,快速的补位进入项目中,协助提升产能并确保项目品质。

当人工智能产业发展与需求不断变化,不只开发团队,合作的数据外包团队也需要与时俱进,才能够彼此产生良好且即时的反馈,为AI模型落地助攻。

发表评论