标注AI训练用视频数据有新方法,比传统流程快15倍

今年COMPUTEX活动上,魁达智能(creDa)展出了今年1月正式上线的动态图片标记平台“ezLabel”,只要上传视频至平台,并针对目标对象第一次、最后一次出现的画面进行标注,就能通过算法自动标记出视频中的目标对象,可以比传统标记方式快15倍。而在4月9号改版后,除了接口中可支持的对象标记添加到1026种,也加入了标记行为的功能,可针对同一区段的多种行为重复标记。

一般在标记动态图片时,会需要在一帧一帧的静态画面中标出目标对象,若以一秒24帧来算,每十帧标记一次,在一秒内就需要标记2-3次,时常耗费大量时间来标记图片。为了缩短标注时间,魁达推出ezLabel动态图片标记平台,用户只需上传视频至平台,先行用方框框出目标物第一次、最后一次出现在画面中的位置,再点击执行,系统就会通过深度学习提取画面特征值并与视频比对,再自动标出目标对象。

虽然平台没有限制视频上传长度,但魁达智能首席执行官沈柏均也提醒,图片在平台上播放与标记时,会占用个人计算机的暂存内存,内存要够大才能处理更长时间的图片,因此会建议视频长度以五分钟为限。

沈柏均也表示,现行的算法仍无法适用于所有对象的标记。经开发团队测试后,确定可被自动化标记的对象共有1026项,包括常见的汽机车、行人,或是水中生物等,均已内置于平台接口中,但如果用户在接口中找不到欲标注的对象,可以便用自定义的功能添加项目来测试,仍然可能适用于自动化标注。

“全自动的算法没有到完美,可是可以比过去快15倍。”沈柏均表示,能否被自动标注也取决于图片的复杂度,例如在大量机车停等红灯的场景中,目标机车就不容易被识别,因此,在系统自动化标注完成后,需要人工复查,重新将错误标记的部分更正,但即便如此,整个标记流程还是能比传统方式快15倍。

ezLabel平台提供用户自行创建任务的功能,并可以选择欲标记物项的种类(Category)、型式(Type)、特征(Attribute)。

若接口中找不到欲标注的对象,可以便用自定义的功能添加项目来测试。

接下来就可以在视频的画面中标记出目标物,再通过算法自动标注。

今年4月9号改版后ezLabel添加了标记行为的功能,沈柏均表示,许多开源软件提供标记行为的方式,是用单张静态画面去标注,但行为应该是连续性的动作。因此,ezLabel让用户在区段中标记行为,例如“走路”这个行为,可以用十帧画面中、被标注的人的动作变化来定义。此外,在区段中也可重复标记不同的行为,例如一个人一边走路一边撑伞,就能在区段中同时标记“走路”与“撑伞”的行为。

ezLabel注册帐号后就可以使用,学生用户比例较高,在标记完成后,ezLabel也提供两种常见的下载格式,分别是PASCAL VOC、JSON,能直接用于AI模型的训练。未来,魁达也希望能将标记完的数据直接串联云计算,能让用户能更便利运用数据来训练模型,省去数据被下载、再上传云计算的程序。