OpenAI发布可自创歌曲的机器学习框架Jukebox

非营利人工智能研究组织OpenAI发布了最新的人工智能应用Jukebox,这是一个可以产生各种类型和风格歌曲的神经网络,OpenAI现在将模型权重和程序代码,以及用于探索生成样本的工具发布在GitHub上,供其他研究人员进一步深入研究。

在早前就有不少音乐自动生成的研究,最先出现的是音符产生器,生成可以弹奏的乐谱,但是这种方法虽然能够安排音符出现的时机、音高、速度和演奏乐器,制造出巴赫圣咏、复音音乐等作品,但是其具有不少限制,无法捕捉人声,以及其他音乐细节,像是音色、力度和表现性。

另一种音乐自动生成的方法,则是直接以音频层级生成音乐,但这种方法也不容易,光以16位元44 kHz的CD音质,产生典型4分钟的歌曲,就需要超过一千万时步(Time Step),研究人员提到,这是要在音频层级产生音乐的一大挑战,相比OpenAI Five在每场Dota游戏中,才花费数万时步而言,千万时步是一个很大的前进,因此要学习音乐的高端语义,模型需要能够处理极长的相依关系。

OpenAI提到,他们之所以会开始进行人工智能在音乐上的应用,因为这是生成模型当前的界限,OpenAI之前的相关研究MuseNet,探索了大量MIDI资料合成音乐的方法,而现在他们从原始音频中,让模型解决高多样性和超长结构的问题,且特别的是,在原始音频域无法容忍发生在短期、中长期和长期时序的错误。

OpenAI研究团队使用自动编码器解决这个问题,编码器会移除无关的消息位元,将原始音频压缩成较低维的空间(下图),而新模型会在压缩空间中产生音频,然后将其采样回原始音频空间。

 

为了训练这个模型,OpenAI在网络上抓了120万首歌组成新的资料集,其中有60万首是英文歌,并配对LyricWiki的歌词和元资料,歌曲元资料包含艺术家、专辑类型和歌曲年份,还有与每首歌曲相关联的心情和播放列表关键字,以32位元44.1 kHz的原始音质,并随机降混(Downmix)左右声道产生单声音频,达到资料增强的目的。

研究人员提到,虽然Jukebox无论是在音乐品质、连贯性、音频样本的长度,以及对艺术家、类型和歌词的适应能力都往前一大步,但Jukebox所创建的音乐与人类的作品相比,仍是天壤之别。虽然Jukebox产生的歌曲,在局部具有连贯性,可产生遵循传统的和弦模式,甚至表现出深刻的独奏,但是却不会有像是重复的副歌这类大型的音乐结构。

而且由于受Jukebox所使用的采样技术影响,采样的过程非常缓慢,约要9个小时才能渲染出一分钟的音频,所以现在的成果还不能放在交互式的应用程序中。此外,Jukebox的训练资料集,主要是西方音乐,歌词的部分都是英文,将来OpenAI希望可以将Jukebox扩展应用更多地区的歌曲。

除了研究成果之外,这项研究在推特上受到讨论的另一个点,在于版权问题,因为Jukebox自动产生各种风格的歌曲,这些歌曲可能包含知名歌手的声音以及相似风格的旋律,因此OpenAI也被质疑,在把这些歌曲作为训练资料集之前,是否有取得适当的授权,但有人则认为,这可能要讨论用来训练人类跟训练机器人原始资料的不同之处。