Auteurs:
(1) Kedan Li, Université de l'Illinois à Urbana-Champaign ;
(2) Min Jin Chong, Université de l'Illinois à Urbana-Champaign ;
(3) Jingen Liu, JD AI Research ;
(4) David Forsyth, Université de l'Illinois à Urbana-Champaign.
L'ensemble de données VITON [17] contient des paires d'images de produit (vue de face, pose à plat, fond blanc) et d'images de studio, des cartes de pose 2D et des points clés de pose. Il a été utilisé par de nombreux travaux [45,11,15,53,24,22,2,37]. Certains travaux [47,15,13,51] sur la correspondance multi-pose utilisaient DeepFashion [33] ou MVC [32] et d'autres ensembles de données auto-collectés [12,21,47,55]. Ces ensembles de données contiennent le même produit porté par plusieurs personnes, mais n'ont pas d'image de produit, donc ne conviennent pas à notre tâche.
L'ensemble de données VITON n'a que des sommets. Cela biaise probablement les performances, car (par exemple) : le drapé des pantalons est différent de celui des hauts ; certains vêtements (robes, vestes, etc.) sont souvent ouverts et ouverts, ce qui crée des problèmes de déformation ; le drapé des jupes est très variable et dépend de détails comme le plissage, l'orientation du grain du tissu, etc. Pour souligner ces problèmes concrets, nous avons collecté un nouvel ensemble de données de 422 756 produits de mode via des sites de commerce électronique de mode Web-scraping. Chaque produit contient une image du produit (vue de face, pose à plat, fond blanc), une image de modèle (personne seule, principalement vue de face) et d'autres métadonnées. Nous utilisons toutes les catégories, à l'exception des chaussures et des accessoires, et les regroupons en quatre types (hauts, bas, vêtements d'extérieur ou tout-corps). Les détails du type apparaissent dans les documents supplémentaires.
Nous divisons aléatoirement les données en 80 % pour la formation et 20 % pour les tests. Étant donné que l'ensemble de données n'est pas accompagné d'annotation de segmentation, nous utilisons Deeplab v3 [6] pré-entraîné sur l'ensemble de données ModaNet [56] pour obtenir les masques de segmentation pour les images modèles. Une grande partie des masques de segmentation sont bruyants, ce qui augmente encore la difficulté (voir Matériel supplémentaire).
Nous entraînons notre modèle sur notre ensemble de données nouvellement collecté et sur l'ensemble de données VITON [17] pour faciliter la comparaison avec les travaux antérieurs. Lors de la formation de notre méthode sur l'ensemble de données VITON, nous extrayons uniquement la partie de la carte de pose 2D qui correspond au produit pour obtenir le masque de segmentation, et supprimons le reste. Les détails de la procédure de formation se trouvent dans le matériel supplémentaire.
Nous avons également tenté de former des travaux antérieurs sur notre ensemble de données. Cependant, des travaux antérieurs [45,17,11,15,53,24,22,13,47,51,7,37] nécessitent des annotations d'estimation de pose qui ne sont pas disponibles dans notre ensemble de données. Ainsi, nous comparons uniquement avec des travaux antérieurs sur l'ensemble de données VITON.
La comparaison quantitative avec l’état de la technique est difficile. Rapporter le FID dans d'autres articles n'a aucun sens, car la valeur est biaisée et le biais dépend des paramètres du réseau utilisé [9,37]. Nous utilisons le score FID∞, qui est impartial. Nous ne pouvons pas calculer FID∞ pour la plupart des autres méthodes, car les résultats n’ont pas été publiés ; en fait, les méthodes récentes (par exemple [15,53,24,24,42,22,2]) n'ont pas publié d'implémentation. CP-VTON [45] l'a fait, et nous l'utilisons comme point de comparaison.
La plupart des évaluations sont qualitatives et d'autres [24, 37] ont également calculé le score FID sur l'ensemble de tests original de VITON, qui ne comprend que 2 032 paires synthétisées. En raison du petit ensemble de données, ce score FID n’est pas significatif. La variance résultant du calcul sera élevée, ce qui entraînera un biais important dans le score FID, le rendant inexact. Pour garantir une comparaison précise, nous avons créé un ensemble de tests plus large de 50 000 paires synthétisées par correspondance aléatoire, en suivant la procédure du travail original [17]. Nous avons créé de nouveaux ensembles de tests à l'aide de notre modèle de correspondance de forme en sélectionnant les 25 voisins les plus proches dans l'espace d'intégration de forme pour chaque élément de l'ensemble de test d'origine. Nous produisons deux ensembles de données de 50 000 paires chacun en utilisant des images colorées et des images en niveaux de gris pour calculer l'intégration de la forme. L'ablation en niveaux de gris nous indique si l'intégration de la forme prend en compte les caractéristiques de couleur.
Le nombre de déformations est choisi en calculant l'erreur L1 et l'erreur de perception (en utilisant VGG19 pré-entraîné sur ImageNet) en utilisant des warpers avec différents k sur l'ensemble de test de notre ensemble de données. Ici, le warper est évalué en mappant un produit sur un modèle portant ce produit. Comme le montre la figure 5, k = 2 surpasse systématiquement k = 1. Cependant, avoir plus de deux chaînes réduit également les performances en utilisant la configuration d'entraînement actuelle, probablement en raison d'un surajustement.
Nous choisissons β en entraînant un seul modèle de distorsion avec différentes valeurs β en utilisant 10 % de l'ensemble de données, puis en évaluant lors du test. Le tableau 1 montre qu'un β trop grand ou deux petits entraînent une baisse des performances. β = 3 s’avère être le meilleur et est donc adopté. Des comparaisons qualitatives sont disponibles dans des documents supplémentaires.
Avec ces données, nous pouvons comparer CP-VTON, notre méthode utilisant une seule chaîne (k = 1), et deux chaînes (k = 2), et deux chaînes mélangées. Le modèle mixte prend en compte la moyenne de deux chaînes au lieu de la concaténation. Les résultats apparaissent dans le tableau 4.3. Nous trouvons:
– pour toutes les méthodes, le choix du modèle permet d’obtenir de meilleurs résultats ;
– il y a peu de choix entre la correspondance des couleurs et celle des niveaux de gris, la correspondance porte donc principalement sur la forme du vêtement ;
– mieux vaut avoir deux warpers qu’un seul ;
– combiner avec un u-net est bien meilleur que mélanger.
Nous pensons que les résultats quantitatifs sous-estiment l’amélioration résultant de l’utilisation d’un plus grand nombre d’ourdisseurs, car la mesure quantitative est relativement rudimentaire. Des preuves qualitatives le confirment (figure 7).
Nous avons soigneusement recherché des exemples correspondants dans [15,24,53,37] pour produire des comparaisons qualitatives. La comparaison avec MG-VTON [12] n'est pas applicable, car le travail n'incluait aucun exemple qualitatif à pose fixe. Notez que la comparaison favorise les travaux antérieurs car notre modèle s'entraîne et teste uniquement en utilisant la région correspondant au vêtement dans la carte de pose 2D, tandis que les travaux antérieurs utilisent la carte de pose 2D complète et les annotations de pose des points clés.
En général, le transfert de vêtements est difficile, mais les méthodes modernes échouent désormais principalement sur les détails. Cela signifie que l’évaluation du transfert nécessite une attention particulière aux détails. La figure 6 montre quelques comparaisons. En particulier, prêter attention aux détails de l'image autour des limites, des textures et des détails des vêtements expose certaines des difficultés de la tâche. Comme le montre la figure 6 à gauche, notre méthode peut gérer de manière robuste des textures complexes (col. a, c) et préserver avec précision les détails du logo (col. b, e, f, g, i). Les exemples montrent également une nette différence entre notre méthode basée sur l'inpainting et les travaux antérieurs : notre méthode ne modifie que la zone où se trouve le tissu d'origine.
présenté. Cette propriété nous permet de mieux préserver les détails du membre (col. a, d, f, g, h, j) et des autres vêtements (col. a, b) que la plupart des travaux antérieurs. Certains de nos résultats (col. c, g) montrent des artefacts de couleur du tissu d'origine sur la frontière, car le bord de la carte de pose est légèrement mal aligné (masque de segmentation imparfait). Cela confirme que notre méthode repose sur un masque de segmentation à grain fin pour produire un résultat de haute qualité. Certaines paires ont une forme légèrement mal assortie (col. d, h). Cela se produira rarement avec notre méthode si l'ensemble de test est construit à l'aide de l'intégration de forme. Notre méthode ne tente donc pas de résoudre ce problème.
Deux chaînes valent très clairement mieux qu'une (Figure 7), probablement parce que la deuxième chaîne peut corriger l'alignement et les détails qu'un modèle de chaîne unique ne parvient pas à résoudre. Des améliorations particulières sont apportées aux vêtements d'extérieur déboutonnés/dézippés et aux images de produits avec des étiquettes. Ces améliorations peuvent ne pas être facilement capturées par une évaluation quantitative car les différences entre les valeurs des pixels sont faibles.
Nous avons tenté d'entraîner le module de correspondance géométrique (en utilisant la transformation TPS) pour créer des déformations sur notre ensemble de données, car il était fréquemment adopté par des travaux antérieurs [17,45,11]. Cependant, la transformation TPS n'a pas réussi à s'adapter aux partitions et aux occlusions importantes (exemples dans les documents supplémentaires).
Nous avons utilisé une étude utilisateur pour vérifier à quelle fréquence les utilisateurs pouvaient identifier les images synthétisées. Il est demandé à un utilisateur si l'image d'un modèle portant un produit (qui est montré) est réelle ou synthétisée. L'affichage utilise la résolution la plus élevée possible (512x512), comme dans la figure 8.
Nous avons utilisé des exemples où le masque est bon, donnant une représentation juste des 20 premiers percentiles de nos résultats. Les utilisateurs reçoivent deux paires réelles et fausses avant l'étude. Chaque participant est ensuite testé avec 50 paires de 25 réels et
25 faux, sans produits répétitifs. Nous testons deux populations d'utilisateurs (chercheurs en vision et participants sélectionnés au hasard).
La plupart du temps, les utilisateurs sont trompés par nos images ; il existe un taux de faux positifs (c'est-à-dire une image synthétisée marquée comme réelle par un utilisateur) très élevé (tableau 3). La figure 8 montre deux exemples d'images synthétisées que 70 % de la population générale ont déclarées réelles. Ce sont des exemples de vêtements d'extérieur rigides avec une séparation des régions et des ombres complexes. Néanmoins, notre méthode a réussi à générer une synthèse de haute qualité. Voir le matériel supplémentaire pour toutes les questions et les résultats complets de l’étude des utilisateurs.
Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.