清大秀AI广告生成技术，图片文案、广告歌曲一把罩

清华大学昨（8日）展示AI广告生成技术，首先是清大信息工程系副教授吴尚鸿和通信工程研究所讲座教授张正尚带领的团队，设计一款条件式生成对抗网络（Conditional GAN）应用程序，只要输入广告商品和投放的目标场景（Context），就能快速产生多种广告文案初稿，比如产品在不同场景的图片，或是结合社群网络分析，根据用户喜好来产生App的画面配置。再来是清大电机系副教授刘奕汶团队，展示了自行开发的歌曲合成技术，只要有歌词和旋律，就能通过递归归神经网络RNN来产生不同人声的广告歌曲，未来有望用于电台、音乐频道，播放风格相似的广告歌曲。

AI广告文案工具自动产生多样初稿，省时又省力

这款AI广告文案生成工具，虽然无法产生分辨率特别高的图片，但它的特别之处，在于能够产出多样性、符合实际条件的文案初稿，“贴近广告产业需求。”吴尚鸿解释，目前GAN研究普遍遇到的问题，就是如何突破Mode Collapse瓶颈，也就是要避免生成器（Generator）产生的内容，与输入的数据太过相似，缺乏多样性。进一步来说，GAN模型一边训练时，就会一边产生数据，但吴尚鸿表示，GAN可能会在训练前期，生成特定特征的数据，然后跳过某些特征，在后半期又生成特定特征的数据，造成多样性分布不均。

吴尚鸿团队利用一套评估方法，来避免这个问题，也就是将生成器前期与后期产生的内容，映射到一个分布（Distribution）上，再利用分布上的乱度（Entrophy），来衡量输出值的多样性，再评估是否需要调整，以此把关多样性。

在实际操作上，用户只需要输入产品图片和目标场景，AI系统就能产出不同场景的产品图。比如，用户输入床组照片后，只要将床组产品框出来，系统就会根据这个特定的产品特征，以及目标场景，来产生不同房间和摆设的产品文案初稿（如下图），供用户调整。

另一个例子，则是产生模特儿广告图，比如用户输入基努·里维斯的照片，再框出希望保留的特征，像是额头、眼睛等，系统就会根据这些特征，产生不同外貌、但拥有相似特征的人型模特儿图片。吴尚鸿强调，这些框选的动作，有如给GAN一个指令，产生符合实际需求、而非天马行空的图片。

此外，这项技术还可应用于App Store的广告设计。比如，团队替美国一家企业的应用程序Flora，重新设计页面配置。Flora是一款生产力工具类型的App，目标是要用户少用手机。而Flora原本的广告页面，是以黑色为主，标题则是“一起专心”。

为找出改善方向，团队首先分析用户行为，比如用户对Flora的描述，常出现“种树”两字，于是将这个特点添加至广告标语。此外，团队也发现，用户在App Store上浏览完Flora后，接下来浏览的App，配色则以浅色为主。根据这些元素，系统产生以浅色为主、更生动的广告标题初稿（如下图），再经由人为调整。如此一来，Flora在去年Apple App Store台湾区生产力工具排行榜，一度打败Gmail、跃升第一名，在英国区则是第六名。

80小时歌曲训练AI，不仅能唱出逼真的流行歌，还可定制修改

刘奕汶指出，团队研发的歌曲生成技术，以RNN为主，收集了600小时的歌曲作为训练数据，可根据商品歌词和旋律，来产生不同的广告歌曲，给用户参考、修改。刘奕汶强调，虽然团队的技术，没办法像DeepMind的语音生成模型WaveNet一样，产生高品质的音频，但团队开发的歌曲生成程序，可让用户调整音高、音色、节奏等，“减少尝试错误，”加速创作流程。（如下图）

现场，刘奕汶团队也播放了以马德里不思议这首旋律为为主的AI广告歌曲，大致上与真人歌声相差无几。刘奕汶指出，这首曲子是利用学生翻唱的歌曲作为训练数据，利用其中约80小时、已标注的歌曲训练而成。他也坦言，这套广告歌曲生成AI，目前还无法仿真真人唱歌时的换气、跟拍等细节，这也是团队目前正在克服的难关。未来，团队希望将这项技术，应用于电台、音乐频道等，根据频道播放的音乐性质，来产生风格相似的歌曲，提高用户体验。

而清大这两项AI广告生成技术的论文，也发布于多个国际知名的学术会议上，比如NeurIPS、IEEE ICASSP、ICML等。接下来，团队除了要提高生成内容的流畅度和分辨率，也瞄准业界需求，与国内大型企业如联电、KKBOX和华硕等洽谈。