作者:
(1) Kedan Li,伊利诺伊大学香槟分校;
(2) Min Jin Chong,伊利诺伊大学香槟分校;
(3)刘金根,京东人工智能研究院;
(4)戴维·福赛斯(David Forsyth),伊利诺伊大学香槟分校。
VITON 数据集 [17] 包含产品图像(正面、平放、白色背景)和工作室图像、2D 姿势图和姿势关键点。它已被许多作品 [45、11、15、53、24、22、2、37] 使用。一些关于多姿势匹配的作品 [47、15、13、51] 使用了 DeepFashion [33] 或 MVC [32] 和其他自收集的数据集 [12、21、47、55]。这些数据集有多个人穿着相同的产品,但没有产品图像,因此不适合我们的任务。
VITON 数据集只有上衣。这可能会导致性能偏差,因为(例如):裤子的悬垂性与上衣的悬垂性不同;一些服装(长袍、夹克等)经常拉开拉链并敞开,从而产生翘曲问题;裙子的悬垂性变化很大,取决于褶皱、织物纹理方向等细节。为了强调这些现实问题,我们通过网络抓取时尚电子商务网站收集了 422,756 种时尚产品的新数据集。每件产品都包含产品图像(正面、平放、白色背景)、模特图像(单人,大部分是正面)和其他元数据。我们使用除鞋子和配饰以外的所有类别,并将它们分为四类(上衣、裤子、外套或全身)。类型详细信息出现在补充材料中。
我们将数据随机分成 80% 用于训练,20% 用于测试。由于数据集没有分割注释,我们使用在 ModaNet 数据集 [56] 上预训练的 Deeplab v3 [6] 来获取模型图像的分割蒙版。大部分分割蒙版都是嘈杂的,这进一步增加了难度(参见补充材料)。
我们在新收集的数据集和 VITON 数据集 [17] 上训练我们的模型,以便与以前的工作进行比较。在 VITON 数据集上训练我们的方法时,我们仅提取与产品相对应的 2D 姿势图部分以获取分割掩码,并丢弃其余部分。训练过程的详细信息见补充材料。
我们还尝试在我们的数据集上训练先前的工作。然而,先前的工作 [45,17,11,15,53,24,22,13,47,51,7,37] 需要姿势估计注释,而我们的数据集中没有。因此,我们只与 VITON 数据集上的先前工作进行比较。
与最先进的方法进行定量比较很困难。在其他论文中报告 FID 是没有意义的,因为该值是有偏差的,并且偏差取决于所用网络的参数 [9,37]。我们使用无偏的 FID∞ 分数。我们无法为大多数其他方法计算 FID∞,因为结果尚未发布;事实上,最近的方法(例如 [15,53,24,24,42,22,2])尚未发布实现。CP-VTON [45] 有,我们以此作为比较点。
大多数评估都是定性的,其他人 [24,37] 也在 VITON 的原始测试集上计算了 FID 分数,该测试集仅包含 2,032 个合成对。由于数据集较小,这个 FID 分数没有意义。计算产生的方差会很大,这会导致 FID 分数出现较大偏差,从而使其不准确。为了确保比较准确,我们按照原始工作 [17] 的程序,通过随机匹配创建了一个更大的合成 50,000 对测试集。我们使用形状匹配模型创建了新的测试集,为原始测试集中的每个项目选择形状嵌入空间中的前 25 个最近邻。我们使用彩色图像和灰度图像生成两个数据集,每个数据集包含 50,000 对,以计算形状嵌入。灰度消融告诉我们形状嵌入是否考虑颜色特征。
通过使用我们数据集测试集上具有不同 k 的整流器计算 L1 误差和感知误差(使用在 ImageNet 上预训练的 VGG19)来选择整流器的数量。这里通过将产品映射到穿着该产品的模型来评估整流器。如图 5 所示,k = 2 的表现始终优于 k = 1。但是,使用当前训练配置时,超过两个整流器也会降低性能,这可能是由于过度拟合造成的。
我们通过使用 10% 的数据集训练具有不同 β 值的单个 warp 模型,然后在测试中进行评估来选择 β。表 1 表明,β 过大或过小都会导致性能下降。β = 3 恰好是最佳值,因此采用。定性比较可在补充材料中找到。
利用这些数据,我们可以比较 CP-VTON、我们使用单个扭曲(k = 1)、两个扭曲(k = 2)和两个扭曲混合的方法。混合模型采用两个扭曲的平均值,而不是串联。结果显示在表 4.3 中。我们发现:
– 对于所有方法,选择模型会获得更好的结果;
– 颜色和灰度匹配之间几乎没有选择,因此匹配主要关注服装形状;
– 两台整经机比一台整经机好;
– 与 u-net 结合比混合效果要好得多。
我们认为,定量结果低估了使用更多整经机所带来的改进,因为定量测量相对粗糙。定性证据支持这一点(图 7)。
我们仔细研究了 [15,24,53,37] 中的匹配示例,以进行定性比较。与 MG-VTON [12] 的比较不适用,因为该工作不包含任何固定姿势定性示例。请注意,比较有利于先前的工作,因为我们的模型仅使用 2D 姿势图中与服装相对应的区域进行训练和测试,而先前的工作使用完整的 2D 姿势图和关键点姿势注释。
一般来说,服装转印很难,但现代方法现在主要在细节上失败。这意味着评估转印需要仔细注意细节。图 6 显示了一些比较。特别是,关注边界、纹理和服装细节周围的图像细节暴露了任务中的一些困难。如图 6 左图所示,我们的方法可以稳健地处理复杂的纹理(图 a、c)并准确保留徽标的细节(图 b、e、f、g、i)。这些例子也显示了我们基于修复的方法与之前工作之间的明显区别——我们的方法只修改了原始布料所在的区域
呈现。此属性使我们能够比大多数先前的工作更好地保留肢体(列 a、d、f、g、h、j)和其他衣物(列 a、b)的细节。我们的一些结果(列 c、g)在边界上显示了原始布料的颜色伪影,因为姿势图的边缘略有错位(不完美的分割掩模)。这证实了我们的方法依赖于细粒度分割掩模来产生高质量的结果。一些对的形状略有不匹配(列 d、h)。如果使用形状嵌入构建测试集,则我们的方法很少会出现这种情况。因此,我们的方法不会尝试解决它。
两次扭曲明显优于一次扭曲(图 7),可能是因为第二次扭曲可以修复单次扭曲模型无法解决的对齐和细节问题。对于未扣上纽扣/未拉上拉链的外套和带标签的产品图像,效果尤其好。这些改进可能不易通过定量评估来捕捉,因为像素值的差异很小。
我们尝试训练几何匹配模块(使用 TPS 变换)以在我们的数据集上创建扭曲,因为它经常被以前的工作采用 [17,45,11]。然而,TPS 变换无法适应分区和严重遮挡(示例见补充材料)。
我们进行了一项用户研究,以检查用户识别合成图像的频率。用户被问及模特穿着产品的图像(如图所示)是真实的还是合成的。显示屏使用尽可能高的分辨率(512x512),如图 8 所示。
我们使用了掩码良好的示例,公平地代表了我们结果的前 20%。在研究之前,用户会先看到两对真假图像。然后,每位参与者会接受 50 对图像的测试,每对图像包含 25 个真假图像。
25 假冒,无重复产品。我们测试了两组用户(视觉研究人员和随机选择的参与者)。
大多数情况下,用户都会被我们的图像欺骗;假阳性率(即用户将合成图像标记为真实)非常高(表 3)。图 8 显示了两个合成图像示例,70% 的普通人群将其报告为真实。它们是具有区域分区和复杂阴影的硬外套示例。尽管如此,我们的方法还是能够生成高质量的合成。有关用户研究的所有问题和完整结果,请参阅补充材料。