作者:
(1) Kedan Li,伊利诺伊大学香槟分校;
(2) Min Jin Chong,伊利诺伊大学香槟分校;
(3)刘金根,京东人工智能研究院;
(4)戴维·福赛斯(David Forsyth),伊利诺伊大学香槟分校。
虚拟试穿方法采用产品图像和模特图像,并生成模特穿着产品的图像。大多数方法本质上是计算从产品图像到模特图像的扭曲,并使用图像生成方法进行组合。然而,获得逼真的图像具有挑战性,因为服装的运动学很复杂,而且图像中的轮廓、纹理和阴影提示会向人类观察者揭示错误。服装必须有适当的垂坠感;纹理必须扭曲以与垂坠服装的形状一致;小细节(纽扣、衣领、翻领、口袋等)必须适当地放置在服装上,等等。评估特别困难,通常是定性的。
本文使用定量评估来评估一个具有挑战性的新型数据集,以证明 (a) 对于任何整经方法,都可以自动选择目标模型来改善结果,并且 (b) 学习多个协调的专用整经机可以进一步改善结果。目标模型由学习的嵌入程序选择,该程序预测模型所穿产品的表示。此预测用于将产品与模型匹配。专用整经机通过一种方法进行训练,该方法鼓励第二个整经机在第一台整经机表现不佳的地方表现良好。然后使用 U-Net 组合整经。定性评估证实,这些改进对轮廓、纹理阴影和服装细节都有全面改善。
关键词:时尚、虚拟试穿、图像生成、图像扭曲
电子商务意味着无法试穿产品,这对时尚消费者来说很困难 [44]。现在,网站通常会张贴模特穿着产品的照片,但数量和周转率意味着这样做非常昂贵且耗时 [34]。需要生成穿着不同服装的时装模特的逼真而准确的图像。可以使用姿势的 3D 模型 [8,14]。另一种方法是合成没有 3D 测量的产品模型图像 [17,45,39,11,15],称为虚拟试穿。这些方法通常由两个部分组成:1)空间变换器,用于扭曲产品
1)使用模型姿势的某种估计来生成图像;2)图像生成网络,将粗对齐、扭曲的产品与模型图像相结合,生成模型佩戴产品的真实图像。
简单服装(如 T 恤)更容易进行转移,文献中强调了这一点。普通服装(与 T 恤不同)可能在前面开口;有复杂的褶皱;有衣领和袖口等形状结构;有纽扣;等等。这些效果对现有方法提出了严峻挑战(补充材料中的示例)。如果使用产品图像选择适合该服装的模型图像,则翘曲会得到显著改善(图 1)。
至少在一定程度上,这是图像生成网络训练方式的结果。我们使用成对图像进行训练——一个产品和一个穿着产品的模特 [17,45,53]。这意味着生成网络始终期望目标图像适合产品(因此它不会接受训练,例如,将毛衣穿在穿着连衣裙的模特身上,图 1)。另一种方法是使用对抗性训练 [11,12,38,13,37];但在这个框架中很难保留特定的产品细节(例如,特定样式的纽扣;T 恤上的贴花)。为了解决这个困难,我们学习了一个嵌入空间,用于选择将产生高质量传输的产品-模型对(图 2)。嵌入学习预测模型图像中的服装在产品图像中会呈现什么形状。然后将产品与穿着类似形状服装的模特进行匹配。由于模特通常会穿着很多件衣服,我们使用空间注意视觉编码器来解析服装的每个类别(上衣、下装、外套、全身等)并分别嵌入每个类别。
当衣服敞开时(例如,一件解开扣子的外套),会出现另一个问题。在这种情况下,扭曲的目标可能有多个连通分量。扭曲器往往会做出反应,将一个区域拟合得很好,而将另一个区域拟合得不好,从而导致细节错位(图 1 中的纽扣)。此类错误可能对训练损失的影响很小,但却非常明显,并被真实用户视为严重问题。我们表明,使用多个协调的专门扭曲可以在扭曲方面产生显着的定量和定性改进。我们的扭曲器会产生多个扭曲,并经过训练以相互协调。修复网络将扭曲和蒙版模型结合起来,并创建合成图像。修复网络本质上是学习在扭曲之间进行选择,同时还为扭曲器提供指导,因为它们是联合训练的。定性评估证实,改进的一个重要部分来自对纽扣、口袋、标签等的更好预测。
我们展示了对虚拟试穿的大规模定量评估。我们通过挖掘时尚电子商务网站收集了一个包含 422,756 对产品图像和工作室照片的新数据集。该数据集包含多个产品类别。我们在定量和定性上与已建立的 VITON 数据集 [17] 上的先前工作进行了比较。定量结果表明,使用我们的形状嵌入选择产品模型对可为所有图像生成管道带来显着改进(表 4.3)。使用多个 warp 也始终优于单个 warp 基线,这通过定量(表 4.3,图 5)和定性(图 7)结果得到证明。与先前工作的定性比较表明,我们的系统比先前的工作更准确地保留了要更换的服装和目标模型的细节。我们进行了一项用户研究,模拟了电子商务用合成模型替换真实模型的成本。结果表明,40% 的合成模型被认为是真实模型。
我们的贡献总结如下:
– 我们引入了一种匹配程序,无论使用哪种整经机,都可以显著提高虚拟试穿的质量和数量。
– 我们引入了一种扭曲模型,它可以学习多个协调扭曲,并在所有测试集上始终优于基线。
– 我们生成的结果保留了足够准确和真实的细节,让购物者认为其中一些合成的图像是真实的。