作者:
(1) Kedan Li,伊利诺伊大学香槟分校;
(2) Min Jin Chong,伊利诺伊大学香槟分校;
(3)刘金根,京东人工智能研究院;
(4)戴维·福赛斯(David Forsyth),伊利诺伊大学香槟分校。
图像合成:空间变换网络使用神经网络估计几何变换 [23]。后续工作 [28,39] 展示了如何将一个物体扭曲成另一个物体。扭曲可用于生成刚性物体 [26,30] 和非刚性物体(例如衣服)[17,12,45] 的图像。与之前的工作相比,我们使用了多个空间扭曲器。
我们的扭曲必须组合成一张图像,而我们用于生成此图像的 U-Net 遵循了修复的趋势(填补图像缺失部分的方法,参见 [48,31,50,49])。Han 等人 [16,52] 表明修复方法可以完成人物身上缺失的衣物。
在我们的工作中,我们使用 FID∞ 来定量评估我们的方法。这是基于 Frchet 初始距离 (FID) [18],这是生成图像建模中的常用指标 [5,54,29]。Chong 等人 [9] 最近表明 FID 是有偏差的;外推可以消除偏差,得到无偏分数 (FID∞)。
生成穿衣服的人: Zhu 等人 [57] 使用条件 GAN 根据服装的姿势骨架和文本描述生成图像。SwapNet [38] 通过解开衣服和姿势特征,学习将衣服从人 A 转移到人 B。Hsiao 等人 [20] 学习了一个时装模特合成网络,使用每件衣服的编码,可以方便地对特定物品进行最小限度的编辑。相比之下,我们将产品扭曲到真实的模型图像上。
形状匹配是我们将产品与模型匹配的方法的基础。Tsiao 等人 [19] 构建了一个形状嵌入,以实现人体与合身的服装之间的匹配。先前的研究通过 2D 图像估计了人体 [4,27]、服装 [10,25] 和两者 [35,40] 的形状。DensePose [1] 描述符有助于对布料的变形和阴影进行建模,因此已被最近的研究 [36,13,47,51,7,52] 采用。
虚拟试穿(VTO) 将产品映射到模型图像。VITON [17] 使用 U-Net 在展示产品的模型上生成粗略合成和蒙版。通过薄板样条 (TPS) 变换 [3] 学习从产品蒙版到模型蒙版的映射。将学习到的映射应用于产品图像以创建扭曲。继他们的工作之后,Wang 等人 [45] 使用几何匹配模块 [39] 改进了架构,直接从产品图像和目标人物对中估计 TPS 变换参数。他们训练了一个单独的细化网络来结合扭曲和目标图像。VTNFP [53] 通过结合身体部位预测扩展了这项工作,后来的工作遵循类似的程序 [37,24,42,22,2]。然而,由于我们数据集中生成的蒙版噪声较大,TPS 变换无法产生合理的扭曲,如图 6 右侧所示。相反,我们采用仿射变换,我们发现仿射变换对缺陷的鲁棒性比 TPS 变换更高。随后的一组工作将任务扩展到多姿势。Warping-GAN [11] 将对抗训练与 GMM 相结合,使用两阶段网络分别生成姿势和纹理。MG-VTON [12] 使用三阶段生成网络进一步细化生成方法。其他工作 [21,55,51,7,46] 遵循了类似的程序。Han 等人 [15] 认为 TPS 变换的自由度较低,并提出了一种基于流的方法来创建扭曲。
许多现有的虚拟试穿工作 [17,12,21,47,55,53,24,37] 都是在只有上衣(T 恤、衬衫等)的数据集上进行评估的。只有上衣可以大大降低形状不匹配的可能性,因为上衣的形状简单且相似。在我们的工作中,我们将问题扩展到包括所有类别的服装(T 恤、衬衫、裤子、短裤、连衣裙、裙子、长袍、夹克、外套等),并提出了一种在源产品和目标模型之间匹配形状的方法。评估表明,使用形状匹配的对可以显著提高我们和之前工作的生成质量(表 4.3)。
此外,真实的工作室服装通常被一件没有拉链/纽扣的外套覆盖,这在以前的工作中也没有出现过 [17,12,21,47,55,53,37]。这可能会导致服装分裂或严重遮挡,而以前的工作并没有解决这个问题,如图 6 所示。我们表明,我们的多重扭曲生成模块可以改善这些困难。