AI也略懂编舞,指定音乐就可产生对应的3D舞蹈动作串行

Google人工智能最新研究,开发出了一种称为FACT(Full-Attention Cross-modal Transformer)的模型,能够模仿和理解舞蹈动作,具有听音乐编舞的能力。除了模型之外,Google还发布了大规模多模态3D舞蹈动作资料集AIST,包含5.2小时的1,408个舞蹈动作串行,涵盖10种舞蹈流派,借由AIST Google证明FACT模型,无论是质性或是定量研究,都优于最先进的方法。

Google提到,舞蹈是一种需要练习的艺术形式,要创造具有丰富表现力的舞蹈,舞者必须经过专业训练,并学会丰富的舞蹈动作,这个过程对人类来说已经很困难,更别说是对机器学习模型,因为这项任务需要生成高运动复杂性的连续运动,在捕捉动作和动作间非线性关系的同时,搭配上音乐。

研究人员从资料集开始着手,在现有的AIST舞蹈视频资料集加工,产生AIST资料集。AIST是一组没有任何3D信息,但是带有音乐伴奏的舞蹈视频,AIST包含Break、Pop和Lock,以及Hip-Hop、House和Street Jazz等10种舞蹈流派,这个人信息料集包含舞者多视角的视频,但是摄影机并没有经过校正。

由于研究人员的需求,利用SMPL 3D模型,恢复AIST舞蹈视频中相机参数和3D人体运动,创建新的资料集AIST,这是一个大规模3D人类舞蹈动作资料集,包含有配乐的各种3D动作。由于AIST原本是一个教学数据库,因此记录了多个舞者以相同编舞,搭上不同BPM的不同音乐,这是舞蹈中常见的做法。

由于模型需要学习音乐和运动之间的一对多映射,因此这样的现象,在跨模态串行对串行生成,形成特别的挑战,研究人员因此需要仔细构建不重叠的训练和测试的资料集,确保子集之间既不共享编舞也不共享配乐。

借由使用AIST,研究人员训练出FACT模型,只要听音乐就能生成3D舞蹈,并且通过与其他先进方法比较,FACT模型在动作品质、多样性,以及音乐动作的关联性三大指标,表现都最佳。在多种方法间,受测者更喜欢FACT模型的输出,而且FACT模型所生成的动作,与音乐的相关性也更高。

Google研究人员所提出的FACT模型,不只可以学习音乐和动作之间的对应关系,还能以音乐为条件,生成高品质的3D动作串行。而伴随发布的AIST,则是迄今最大的3D人类舞蹈资料集,具有多视角、多流派和跨模态等特性,有助于促进3D运动生成研究。