Amazon运用AI要为模特儿虚拟换装

Amazon在计算机视觉和图形识别重要年度会议CVPR中，发布了三篇改善用户线上购买衣物体验的论文，除了改善文本搜索商品的能力之外，也要让系统能够主动推荐能补充用户已选择商品的建议，并且还要让系统能够合成衣服到模特儿身上。

Amazon的第一篇论文描述了一种，能够让用户通过文本描述，修正产品查询的方法，像是用户能以“我想要浅色的花朵图案”，来改善产品查询结果。研究人员训练了一个拥有三个输入的神经网络模型，三个输入分别为来源图像、文本修正描述以及与文本描述相符的目标图像，这个主模型由位于工作管线中不同位置的三个子模型组成。

研究人员设计了一种可将文本描述表示，和图像特征表示融合在一起的方法，在工作管线中，来源图像和文本描述表示，会先融合在一起，接着才与目标图像相互关联。

由于较低端的模型倾向表示像是材质与颜色等较低端的特征，而较高端的模型表达袖子长短和松紧等较高端的特征，因此这个新系统使用的分层配对（Hierarchical Matching）技术，有助于训练模型，确保能在不同层次适当处理文本修正。

每种语言描述和视觉表现的融合，都由两个独立的组件模型执行，其中一个关注来源图像和目标图像需要维持相同的视觉特征，另一个则关注要改变的特征。经过测试，这个系统有助于提高搜索到与文本修正相符结果的几率，较之前最佳系统提高58%。

而Amazon的第二篇论文，则是建议用户购买能够补充选购衣物的商品，研究人员提到，这项新系统能够预测服装和饰品的兼容性，并在用户选择衬衫和夹克之后，推荐可搭配的鞋子。图像会经过模型产生一个表示矢量，矢量会以遮罩处理，这个经训练的遮罩，能够对矢量特征进行调整，缩小部分特征的影响以及放大部分特征的影响。

当目录中的每个物品都以矢量表示，则要找出特定服装的最佳搭配，就变成了矢量配对的问题，研究人员提到，这个系统能以56.19%精确度推荐商品，较之前的系统表现都还好。

第三篇论文则是描述一个能将衣服合成到目标模特儿身上的系统Outfit-VITON，相当于虚拟试穿系统，将参考照片中人物的穿着，合成到另一张照片的模特儿身上，研究人员提到，Outfit-VITON使用对抗网络，由生成网络和判别网络的竞争产生最佳结果。

Outfit-VITON由三部分组成，形状生成模型、外观生成模型以及外观修正模型，形状生成模型会圈出要试穿的衣服形状，并计算要试穿模特儿的身材以及动作，其输出的形状表示到外观生成模型，外观生成模型的工作和形状生成模型相似，其会结合形状生成模型所生成的结果，合成出模特儿穿着指定服饰的照片，接着由第三个模型进行微调，保留商标以及特殊图案，研究人员表示，这个系统比以前的系统产生更自然的结果，能够产生正确的分割图，通过改变所选服装的形状，以符合目标人物。