paint-brush
通过形状匹配实现准确、逼真的虚拟试穿:实验经过@polyframe
134 讀數

通过形状匹配实现准确、逼真的虚拟试穿:实验

太長; 讀書

研究人员通过使用新的数据集选择目标模型并训练专门的整经机来改进虚拟试穿方法,从而提高真实感和准确性。
featured image - 通过形状匹配实现准确、逼真的虚拟试穿:实验
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

作者:

(1) Kedan Li,伊利诺伊大学香槟分校;

(2) Min Jin Chong,伊利诺伊大学香槟分校;

(3)刘金根,京东人工智能研究院;

(4)戴维·福赛斯(David Forsyth),伊利诺伊大学香槟分校。

链接表

4.实验

4.1 数据集

VITON 数据集 [17] 包含产品图像(正面、平放、白色背景)和工作室图像、2D 姿势图和姿势关键点。它已被许多作品 [45、11、15、53、24、22、2、37] 使用。一些关于多姿势匹配的作品 [47、15、13、51] 使用了 DeepFashion [33] 或 MVC [32] 和其他自收集的数据集 [12、21、47、55]。这些数据集有多个人穿着相同的产品,但没有产品图像,因此不适合我们的任务。


VITON 数据集只有上衣。这可能会导致性能偏差,因为(例如):裤子的悬垂性与上衣的悬垂性不同;一些服装(长袍、夹克等)经常拉开拉链并敞开,从而产生翘曲问题;裙子的悬垂性变化很大,取决于褶皱、织物纹理方向等细节。为了强调这些现实问题,我们通过网络抓取时尚电子商务网站收集了 422,756 种时尚产品的新数据集。每件产品都包含产品图像(正面、平放、白色背景)、模特图像(单人,大部分是正面)和其他元数据。我们使用除鞋子和配饰以外的所有类别,并将它们分为四类(上衣、裤子、外套或全身)。类型详细信息出现在补充材料中。


我们将数据随机分成 80% 用于训练,20% 用于测试。由于数据集没有分割注释,我们使用在 ModaNet 数据集 [56] 上预训练的 Deeplab v3 [6] 来获取模型图像的分割蒙版。大部分分割蒙版都是嘈杂的,这进一步增加了难度(参见补充材料)。

4.2 训练过程

我们在新收集的数据集和 VITON 数据集 [17] 上训练我们的模型,以便与以前的工作进行比较。在 VITON 数据集上训练我们的方法时,我们仅提取与产品相对应的 2D 姿势图部分以获取分割掩码,并丢弃其余部分。训练过程的详细信息见补充材料。


我们还尝试在我们的数据集上训练先前的工作。然而,先前的工作 [45,17,11,15,53,24,22,13,47,51,7,37] 需要姿势估计注释,而我们的数据集中没有。因此,我们只与 VITON 数据集上的先前工作进行比较。

4.3 定量评估

与最先进的方法进行定量比较很困难。在其他论文中报告 FID 是没有意义的,因为该值是有偏差的,并且偏差取决于所用网络的参数 [9,37]。我们使用无偏的 FID∞ 分数。我们无法为大多数其他方法计算 FID∞,因为结果尚未发布;事实上,最近的方法(例如 [15,53,24,24,42,22,2])尚未发布实现。CP-VTON [45] 有,我们以此作为比较点。


图 5。该图比较了 200 个训练时期的测试集上的 L1 损失和感知损失(预训练的 VGG19),每 5 个时期记录一次。k=2 总体上误差最小。使用较大的 k 可以加快早期的训练速度,但后期会出现过拟合。


大多数评估都是定性的,其他人 [24,37] 也在 VITON 的原始测试集上计算了 FID 分数,该测试集仅包含 2,032 个合成对。由于数据集较小,这个 FID 分数没有意义。计算产生的方差会很大,这会导致 FID 分数出现较大偏差,从而使其不准确。为了确保比较准确,我们按照原始工作 [17] 的程序,通过随机匹配创建了一个更大的合成 50,000 对测试集。我们使用形状匹配模型创建了新的测试集,为原始测试集中的每个项目选择形状嵌入空间中的前 25 个最近邻。我们使用彩色图像和灰度图像生成两个数据集,每个数据集包含 50,000 对,以计算形状嵌入。灰度消融告诉我们形状嵌入是否考虑颜色特征。


通过使用我们数据集测试集上具有不同 k 的整流器计算 L1 误差和感知误差(使用在 ImageNet 上预训练的 VGG19)来选择整流器的数量。这里通过将产品映射到穿着该产品的模型来评估整流器。如图 5 所示,k = 2 的表现始终优于 k = 1。但是,使用当前训练配置时,超过两个整流器也会降低性能,这可能是由于过度拟合造成的。


我们通过使用 10% 的数据集训练具有不同 β 值的单个 warp 模型,然后在测试中进行评估来选择 β。表 1 表明,β 过大或过小都会导致性能下降。β = 3 恰好是最佳值,因此采用。定性比较可在补充材料中找到。



利用这些数据,我们可以比较 CP-VTON、我们使用单个扭曲(k = 1)、两个扭曲(k = 2)和两个扭曲混合的方法。混合模型采用两个扭曲的平均值,而不是串联。结果显示在表 4.3 中。我们发现:


– 对于所有方法,选择模型会获得更好的结果;


– 颜色和灰度匹配之间几乎没有选择,因此匹配主要关注服装形状;


– 两台整经机比一台整经机好;


– 与 u-net 结合比混合效果要好得多。


我们认为,定量结果低估了使用更多整经机所带来的改进,因为定量测量相对粗糙。定性证据支持这一点(图 7)。

4.4 定性结果

我们仔细研究了 [15,24,53,37] 中的匹配示例,以进行定性比较。与 MG-VTON [12] 的比较不适用,因为该工作不包含任何固定姿势定性示例。请注意,比较有利于先前的工作,因为我们的模型仅使用 2D 姿势图中与服装相对应的区域进行训练和测试,而先前的工作使用完整的 2D 姿势图和关键点姿势注释。


一般来说,服装转印很难,但现代方法现在主要在细节上失败。这意味着评估转印需要仔细注意细节。图 6 显示了一些比较。特别是,关注边界、纹理和服装细节周围的图像细节暴露了任务中的一些困难。如图 6 左图所示,我们的方法可以稳健地处理复杂的纹理(图 a、c)并准确保留徽标的细节(图 b、e、f、g、i)。这些例子也显示了我们基于修复的方法与之前工作之间的明显区别——我们的方法只修改了原始布料所在的区域


表 2. 该表比较了使用我们的形状嵌入网络对随机对和匹配对的不同图像合成方法的 FID∞ 分数(越小越好)。第 1 列中的所有值都明显大于第 2 列和第 3 列的值,表明选择兼容对可显著提高我们的方法和 CP-VTON 的性能。我们相信这种改进也适用于其他方法,但其他方法尚未发布代码。在所有方法中,我们使用两个整经机的方法在所有测试集上的表现都明显优于以前的工作。颜色和灰度匹配器之间没有太多可供选择的,这表明匹配过程侧重于服装形状(因为它是经过训练的)。使用两个整经机(k = 2)比使用单个整经机(k = 1)略有改进,因为任何定量指标都难以捕捉到这些改进。差异在定性示例中更加明显(图 7)。使用 u-net 来组合整经机很重要;仅仅混合会产生较差的结果(最后一行)。


图 6. 在 VITON 数据集上与 CP VTON、ClothFlow、VTNFP 和 SieveNet 进行比较,使用为这些方法发布的图像。每个块显示不同的数据集。我们的结果在第 2 行,比较方法结果在第 3 行。注意 CP-VTON 与我们的方法相比:遮挡领口 (b);条纹混叠 (c);重新缩放传输 (b);涂抹纹理和模糊边界 (a);模糊传输 (b)。注意 GarmentGAN 与我们的方法相比:破坏肢体边界 (d);腰部花朵对比度降低 (d);传输严重混叠 (e)。注意 ClothFlow 与我们的方法相比:不混叠条纹 (f);模糊手部(f、g);模糊解剖结构(锁骨和颈部肌腱,g);重新缩放传输 (g)。注意 VTNFP 与我们的方法相比:放错纹理细节(领口和肩部的花朵,h);损坏转移 (i)。注意 SieveNet 与我们的方法相比:模糊轮廓 (j、k);错位袖口 (k);损坏阴影 (k 上的手臂)。最好在高分辨率下以彩色方式查看。


呈现。此属性使我们能够比大多数先前的工作更好地保留肢体(列 a、d、f、g、h、j)和其他衣物(列 a、b)的细节。我们的一些结果(列 c、g)在边界上显示了原始布料的颜色伪影,因为姿势图的边缘略有错位(不完美的分割掩模)。这证实了我们的方法依赖于细粒度分割掩模来产生高质量的结果。一些对的形状略有不匹配(列 d、h)。如果使用形状嵌入构建测试集,则我们的方法很少会出现这种情况。因此,我们的方法不会尝试解决它。


两次扭曲明显优于一次扭曲(图 7),可能是因为第二次扭曲可以修复单次扭曲模型无法解决的对齐和细节问题。对于未扣上纽扣/未拉上拉链的外套和带标签的产品图像,效果尤其好。这些改进可能不易通过定量评估来捕捉,因为像素值的差异很小。


图 7。该图显示了 k = 2 和 k = 1 之间的定性比较。注意:左侧单根经纱的纽扣位置错误,k = 2 时已修复;左侧中心单根经纱的口袋比例错误且袖子边界存在问题,k = 2 时已修复;中心纽扣位置严重错误且周围有褶皱,k = 2 时已修复;右侧中心放错位置的服装标签,k = 2 时已修复;右侧另一个放错位置的服装标签,k = 2 时已修复。


我们尝试训练几何匹配模块(使用 TPS 变换)以在我们的数据集上创建扭曲,因为它经常被以前的工作采用 [17,45,11]。然而,TPS 变换无法适应分区和严重遮挡(示例见补充材料)。

4.5 用户研究

我们进行了一项用户研究,以检查用户识别合成图像的频率。用户被问及模特穿着产品的图像(如图所示)是真实的还是合成的。显示屏使用尽可能高的分辨率(512x512),如图 8 所示。


我们使用了掩码良好的示例,公平地代表了我们结果的前 20%。在研究之前,用户会先看到两对真假图像。然后,每位参与者会接受 50 对图像的测试,每对图像包含 25 个真假图像。


图 8. 70% 的用户研究参与者认为这两幅合成图像是真实的。请注意阴影、皱纹,甚至拉链和衣领。


表 3. 用户研究结果显示,参与者很难区分真实图像和合成图像。51.6% 和 61.5% 的假图像被人群和研究人员认为是真实的。偶尔,一些真实图像也被认为是假的,这表明参与者已经注意到了。


25 假冒,无重复产品。我们测试了两组用户(视觉研究人员和随机选择的参与者)。


大多数情况下,用户都会被我们的图像欺骗;假阳性率(即用户将合成图像标记为真实)非常高(表 3)。图 8 显示了两个合成图像示例,70% 的普通人群将其报告为真实。它们是具有区域分区和复杂阴影的硬外套示例。尽管如此,我们的方法还是能够生成高质量的合成。有关用户研究的所有问题和完整结果,请参阅补充材料。