paint-brush
通过形状匹配实现准确、逼真的虚拟试穿:相关工作经过@polyframe
265 讀數

通过形状匹配实现准确、逼真的虚拟试穿:相关工作

太長; 讀書

研究人员通过使用新的数据集选择目标模型并训练专门的整经机来改进虚拟试穿方法,从而提高真实感和准确性。
featured image - 通过形状匹配实现准确、逼真的虚拟试穿:相关工作
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

作者:

(1) Kedan Li,伊利诺伊大学香槟分校;

(2) Min Jin Chong,伊利诺伊大学香槟分校;

(3)刘金根,京东人工智能研究院;

(4)戴维·福赛斯(David Forsyth),伊利诺伊大学香槟分校。

链接表

2.相关工作

图像合成:空间变换网络使用神经网络估计几何变换 [23]。后续工作 [28,39] 展示了如何将一个物体扭曲成另一个物体。扭曲可用于生成刚性物体 [26,30] 和非刚性物体(例如衣服)[17,12,45] 的图像。与之前的工作相比,我们使用了多个空间扭曲器。


我们的扭曲必须组合成一张图像,而我们用于生成此图像的 U-Net 遵循了修复的趋势(填补图像缺失部分的方法,参见 [48,31,50,49])。Han 等人 [16,52] 表明修复方法可以完成人物身上缺失的衣物。


在我们的工作中,我们使用 FID∞ 来定量评估我们的方法。这是基于 Frchet 初始距离 (FID) [18],这是生成图像建模中的常用指标 [5,54,29]。Chong 等人 [9] 最近表明 FID 是有偏差的;外推可以消除偏差,得到无偏分数 (FID∞)。


生成穿衣服的人: Zhu 等人 [57] 使用条件 GAN 根据服装的姿势骨架和文本描述生成图像。SwapNet [38] 通过解开衣服和姿势特征,学习将衣服从人 A 转移到人 B。Hsiao 等人 [20] 学习了一个时装模特合成网络,使用每件衣服的编码,可以方便地对特定物品进行最小限度的编辑。相比之下,我们将产品扭曲到真实的模型图像上。


形状匹配是我们将产品与模型匹配的方法的基础。Tsiao 等人 [19] 构建了一个形状嵌入,以实现人体与合身的服装之间的匹配。先前的研究通过 2D 图像估计了人体 [4,27]、服装 [10,25] 和两者 [35,40] 的形状。DensePose [1] 描述符有助于对布料的变形和阴影进行建模,因此已被最近的研究 [36,13,47,51,7,52] 采用。


虚拟试穿(VTO) 将产品映射到模型图像。VITON [17] 使用 U-Net 在展示产品的模型上生成粗略合成和蒙版。通过薄板样条 (TPS) 变换 [3] 学习从产品蒙版到模型蒙版的映射。将学习到的映射应用于产品图像以创建扭曲。继他们的工作之后,Wang 等人 [45] 使用几何匹配模块 [39] 改进了架构,直接从产品图像和目标人物对中估计 TPS 变换参数。他们训练了一个单独的细化网络来结合扭曲和目标图像。VTNFP [53] 通过结合身体部位预测扩展了这项工作,后来的工作遵循类似的程序 [37,24,42,22,2]。然而,由于我们数据集中生成的蒙版噪声较大,TPS 变换无法产生合理的扭曲,如图 6 右侧所示。相反,我们采用仿射变换,我们发现仿射变换对缺陷的鲁棒性比 TPS 变换更高。随后的一组工作将任务扩展到多姿势。Warping-GAN [11] 将对抗训练与 GMM 相结合,使用两阶段网络分别生成姿势和纹理。MG-VTON [12] 使用三阶段生成网络进一步细化生成方法。其他工作 [21,55,51,7,46] 遵循了类似的程序。Han 等人 [15] 认为 TPS 变换的自由度较低,并提出了一种基于流的方法来创建扭曲。


许多现有的虚拟试穿工作 [17,12,21,47,55,53,24,37] 都是在只有上衣(T 恤、衬衫等)的数据集上进行评估的。只有上衣可以大大降低形状不匹配的可能性,因为上衣的形状简单且相似。在我们的工作中,我们将问题扩展到包括所有类别的服装(T 恤、衬衫、裤子、短裤、连衣裙、裙子、长袍、夹克、外套等),并提出了一种在源产品和目标模型之间匹配形状的方法。评估表明,使用形状匹配的对可以显著提高我们和之前工作的生成质量(表 4.3)。


此外,真实的工作室服装通常被一件没有拉链/纽扣的外套覆盖,这在以前的工作中也没有出现过 [17,12,21,47,55,53,37]。这可能会导致服装分裂或严重遮挡,而以前的工作并没有解决这个问题,如图 6 所示。我们表明,我们的多重扭曲生成模块可以改善这些困难。


图 2. 很难将长袖衬衫转移到穿着 T 恤的模特身上。我们的流程分两个阶段检索兼容对。首先,我们使用服装视觉编码器计算服装外观嵌入,该编码器使用产品-模型对和空间注意力进行训练。然后,形状编码器从服装外观嵌入计算形状嵌入。形状嵌入是使用产品轮廓作为度量来学习的,它只保留形状信息。当我们转移时,我们通过在形状嵌入空间中搜索来选择穿着兼容服装的模型。