paint-brush
Vers un essai virtuel précis et réaliste grâce à la correspondance de formes : expérimentationspar@polyframe
168 lectures

Vers un essai virtuel précis et réaliste grâce à la correspondance de formes : expérimentations

Trop long; Pour lire

Les chercheurs améliorent les méthodes d'essai virtuel en utilisant un nouvel ensemble de données pour choisir des modèles cibles et former des warpers spécialisés, améliorant ainsi le réalisme et la précision.
featured image - Vers un essai virtuel précis et réaliste grâce à la correspondance de formes : expérimentations
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

Auteurs:

(1) Kedan Li, Université de l'Illinois à Urbana-Champaign ;

(2) Min Jin Chong, Université de l'Illinois à Urbana-Champaign ;

(3) Jingen Liu, JD AI Research ;

(4) David Forsyth, Université de l'Illinois à Urbana-Champaign.

Tableau des liens

4. Expériences

4.1 Ensembles de données

L'ensemble de données VITON [17] contient des paires d'images de produit (vue de face, pose à plat, fond blanc) et d'images de studio, des cartes de pose 2D et des points clés de pose. Il a été utilisé par de nombreux travaux [45,11,15,53,24,22,2,37]. Certains travaux [47,15,13,51] sur la correspondance multi-pose utilisaient DeepFashion [33] ou MVC [32] et d'autres ensembles de données auto-collectés [12,21,47,55]. Ces ensembles de données contiennent le même produit porté par plusieurs personnes, mais n'ont pas d'image de produit, donc ne conviennent pas à notre tâche.


L'ensemble de données VITON n'a que des sommets. Cela biaise probablement les performances, car (par exemple) : le drapé des pantalons est différent de celui des hauts ; certains vêtements (robes, vestes, etc.) sont souvent ouverts et ouverts, ce qui crée des problèmes de déformation ; le drapé des jupes est très variable et dépend de détails comme le plissage, l'orientation du grain du tissu, etc. Pour souligner ces problèmes concrets, nous avons collecté un nouvel ensemble de données de 422 756 produits de mode via des sites de commerce électronique de mode Web-scraping. Chaque produit contient une image du produit (vue de face, pose à plat, fond blanc), une image de modèle (personne seule, principalement vue de face) et d'autres métadonnées. Nous utilisons toutes les catégories, à l'exception des chaussures et des accessoires, et les regroupons en quatre types (hauts, bas, vêtements d'extérieur ou tout-corps). Les détails du type apparaissent dans les documents supplémentaires.


Nous divisons aléatoirement les données en 80 % pour la formation et 20 % pour les tests. Étant donné que l'ensemble de données n'est pas accompagné d'annotation de segmentation, nous utilisons Deeplab v3 [6] pré-entraîné sur l'ensemble de données ModaNet [56] pour obtenir les masques de segmentation pour les images modèles. Une grande partie des masques de segmentation sont bruyants, ce qui augmente encore la difficulté (voir Matériel supplémentaire).

4.2 Processus de formation

Nous entraînons notre modèle sur notre ensemble de données nouvellement collecté et sur l'ensemble de données VITON [17] pour faciliter la comparaison avec les travaux antérieurs. Lors de la formation de notre méthode sur l'ensemble de données VITON, nous extrayons uniquement la partie de la carte de pose 2D qui correspond au produit pour obtenir le masque de segmentation, et supprimons le reste. Les détails de la procédure de formation se trouvent dans le matériel supplémentaire.


Nous avons également tenté de former des travaux antérieurs sur notre ensemble de données. Cependant, des travaux antérieurs [45,17,11,15,53,24,22,13,47,51,7,37] nécessitent des annotations d'estimation de pose qui ne sont pas disponibles dans notre ensemble de données. Ainsi, nous comparons uniquement avec des travaux antérieurs sur l'ensemble de données VITON.

4.3 Évaluation quantitative

La comparaison quantitative avec l’état de la technique est difficile. Rapporter le FID dans d'autres articles n'a aucun sens, car la valeur est biaisée et le biais dépend des paramètres du réseau utilisé [9,37]. Nous utilisons le score FID∞, qui est impartial. Nous ne pouvons pas calculer FID∞ pour la plupart des autres méthodes, car les résultats n’ont pas été publiés ; en fait, les méthodes récentes (par exemple [15,53,24,24,42,22,2]) n'ont pas publié d'implémentation. CP-VTON [45] l'a fait, et nous l'utilisons comme point de comparaison.


Fig. 5. La figure compare la perte de L1 et la perte de perception (VGG19 pré-entraîné) sur l'ensemble de tests sur 200 époques d'entraînement, enregistrées toutes les 5 époques. k=2 a l’erreur globale la plus faible. L'utilisation d'un grand k accélère l'entraînement au début, mais surajustement ultérieur.


La plupart des évaluations sont qualitatives et d'autres [24, 37] ont également calculé le score FID sur l'ensemble de tests original de VITON, qui ne comprend que 2 032 paires synthétisées. En raison du petit ensemble de données, ce score FID n’est pas significatif. La variance résultant du calcul sera élevée, ce qui entraînera un biais important dans le score FID, le rendant inexact. Pour garantir une comparaison précise, nous avons créé un ensemble de tests plus large de 50 000 paires synthétisées par correspondance aléatoire, en suivant la procédure du travail original [17]. Nous avons créé de nouveaux ensembles de tests à l'aide de notre modèle de correspondance de forme en sélectionnant les 25 voisins les plus proches dans l'espace d'intégration de forme pour chaque élément de l'ensemble de test d'origine. Nous produisons deux ensembles de données de 50 000 paires chacun en utilisant des images colorées et des images en niveaux de gris pour calculer l'intégration de la forme. L'ablation en niveaux de gris nous indique si l'intégration de la forme prend en compte les caractéristiques de couleur.


Le nombre de déformations est choisi en calculant l'erreur L1 et l'erreur de perception (en utilisant VGG19 pré-entraîné sur ImageNet) en utilisant des warpers avec différents k sur l'ensemble de test de notre ensemble de données. Ici, le warper est évalué en mappant un produit sur un modèle portant ce produit. Comme le montre la figure 5, k = 2 surpasse systématiquement k = 1. Cependant, avoir plus de deux chaînes réduit également les performances en utilisant la configuration d'entraînement actuelle, probablement en raison d'un surajustement.


Nous choisissons β en entraînant un seul modèle de distorsion avec différentes valeurs β en utilisant 10 % de l'ensemble de données, puis en évaluant lors du test. Le tableau 1 montre qu'un β trop grand ou deux petits entraînent une baisse des performances. β = 3 s’avère être le meilleur et est donc adopté. Des comparaisons qualitatives sont disponibles dans des documents supplémentaires.



Avec ces données, nous pouvons comparer CP-VTON, notre méthode utilisant une seule chaîne (k = 1), et deux chaînes (k = 2), et deux chaînes mélangées. Le modèle mixte prend en compte la moyenne de deux chaînes au lieu de la concaténation. Les résultats apparaissent dans le tableau 4.3. Nous trouvons:


– pour toutes les méthodes, le choix du modèle permet d’obtenir de meilleurs résultats ;


– il y a peu de choix entre la correspondance des couleurs et celle des niveaux de gris, la correspondance porte donc principalement sur la forme du vêtement ;


– mieux vaut avoir deux warpers qu’un seul ;


– combiner avec un u-net est bien meilleur que mélanger.


Nous pensons que les résultats quantitatifs sous-estiment l’amélioration résultant de l’utilisation d’un plus grand nombre d’ourdisseurs, car la mesure quantitative est relativement rudimentaire. Des preuves qualitatives le confirment (figure 7).

4.4 Résultats qualitatifs

Nous avons soigneusement recherché des exemples correspondants dans [15,24,53,37] pour produire des comparaisons qualitatives. La comparaison avec MG-VTON [12] n'est pas applicable, car le travail n'incluait aucun exemple qualitatif à pose fixe. Notez que la comparaison favorise les travaux antérieurs car notre modèle s'entraîne et teste uniquement en utilisant la région correspondant au vêtement dans la carte de pose 2D, tandis que les travaux antérieurs utilisent la carte de pose 2D complète et les annotations de pose des points clés.


En général, le transfert de vêtements est difficile, mais les méthodes modernes échouent désormais principalement sur les détails. Cela signifie que l’évaluation du transfert nécessite une attention particulière aux détails. La figure 6 montre quelques comparaisons. En particulier, prêter attention aux détails de l'image autour des limites, des textures et des détails des vêtements expose certaines des difficultés de la tâche. Comme le montre la figure 6 à gauche, notre méthode peut gérer de manière robuste des textures complexes (col. a, c) et préserver avec précision les détails du logo (col. b, e, f, g, i). Les exemples montrent également une nette différence entre notre méthode basée sur l'inpainting et les travaux antérieurs : notre méthode ne modifie que la zone où se trouve le tissu d'origine.


Tableau 2. Ce tableau compare le score FID∞ (plus petit mieux) entre différentes méthodes de synthèse d'images sur des paires aléatoires et des paires correspondantes utilisant notre réseau d'intégration de formes. Toutes les valeurs en col. 1 sont nettement supérieures à celles de la col. 2 et 3, démontrant que le choix d'une paire compatible améliore significativement les performances de nos méthodes et de CP-VTON. Nous pensons que cette amélioration s'applique à d'autres méthodes, mais d'autres n'ont pas publié de code. Parmi les méthodes, notre méthode avec deux warpers surpasse considérablement les travaux antérieurs sur tous les ensembles de tests. Il n'y a pas beaucoup de choix entre la correspondance des couleurs et celle des niveaux de gris, ce qui suggère que le processus de correspondance se concentre sur la forme du vêtement (comme il est entraîné à le faire). L’utilisation de deux chaînes (k = 2) montre une légère amélioration par rapport à l’utilisation d’une seule chaîne (k = 1), car les améliorations sont difficiles à capturer pour toute métrique quantitative. La différence est plus visible dans les exemples qualitatifs (figure 7). Il est important d'utiliser un u-net pour combiner les chaînes ; le simple mélange produit de mauvais résultats (dernière rangée).


Fig. 6. Comparaisons avec CP VTON, ClothFlow, VTNFP et SieveNet sur l'ensemble de données VITON, à l'aide d'images publiées pour ces méthodes. Chaque bloc affiche un ensemble de données différent. Nos résultats sont dans la ligne 2, et les résultats de la méthode de comparaison sont dans la ligne 3. Notez CP-VTON, par rapport à notre méthode : obscurcissement des décolletés (b) ; rayures d'alias (c); redimensionnement des transferts (b); texture maculée et limites floues (a); et flou des transferts (b). Notez GarmentGAN, par rapport à notre méthode : mutilation de la limite du membre (d ); perte de contraste sur les fleurs à la taille (d) ; et alias sévèrement sur un transfert (e). Notez ClothFlow, par rapport à notre méthode : PAS d'alias de rayures (f) ; mains floues (f, g); anatomie floue (tendons de la clavicule et du cou, g) ; redimensionnement d'un transfert (g). Notez VTNFP, par rapport à notre méthode : détail de texture mal placé (fleurs au niveau du décolleté et de l'épaule, h) ; transferts mutilés (i). Notez SieveNet, par rapport à notre méthode : contours flous (j, k) ; poignets égarés (k); ombrage mutilant (bras sur k). Meilleur affichage en couleur à haute résolution.


présenté. Cette propriété nous permet de mieux préserver les détails du membre (col. a, d, f, g, h, j) et des autres vêtements (col. a, b) que la plupart des travaux antérieurs. Certains de nos résultats (col. c, g) montrent des artefacts de couleur du tissu d'origine sur la frontière, car le bord de la carte de pose est légèrement mal aligné (masque de segmentation imparfait). Cela confirme que notre méthode repose sur un masque de segmentation à grain fin pour produire un résultat de haute qualité. Certaines paires ont une forme légèrement mal assortie (col. d, h). Cela se produira rarement avec notre méthode si l'ensemble de test est construit à l'aide de l'intégration de forme. Notre méthode ne tente donc pas de résoudre ce problème.


Deux chaînes valent très clairement mieux qu'une (Figure 7), probablement parce que la deuxième chaîne peut corriger l'alignement et les détails qu'un modèle de chaîne unique ne parvient pas à résoudre. Des améliorations particulières sont apportées aux vêtements d'extérieur déboutonnés/dézippés et aux images de produits avec des étiquettes. Ces améliorations peuvent ne pas être facilement capturées par une évaluation quantitative car les différences entre les valeurs des pixels sont faibles.


Fig. 7. Les figures montrent une comparaison qualitative entre k = 2 et k = 1. Remarque : les boutons au mauvais endroit pour une seule chaîne à gauche, corrigés pour k = 2 ; une poche mal mise à l'échelle et des problèmes de bordures de manches pour la chaîne unique au centre gauche, corrigés pour k = 2 ; un bouton gravement mal placé et un flambage environnant au centre, fixé pour k = 2 ; une étiquette de vêtement égarée au centre droit, corrigée pour k = 2 ; une autre étiquette de vêtement égarée à droite, corrigée pour k = 2.


Nous avons tenté d'entraîner le module de correspondance géométrique (en utilisant la transformation TPS) pour créer des déformations sur notre ensemble de données, car il était fréquemment adopté par des travaux antérieurs [17,45,11]. Cependant, la transformation TPS n'a pas réussi à s'adapter aux partitions et aux occlusions importantes (exemples dans les documents supplémentaires).

4.5 Étude des utilisateurs

Nous avons utilisé une étude utilisateur pour vérifier à quelle fréquence les utilisateurs pouvaient identifier les images synthétisées. Il est demandé à un utilisateur si l'image d'un modèle portant un produit (qui est montré) est réelle ou synthétisée. L'affichage utilise la résolution la plus élevée possible (512x512), comme dans la figure 8.


Nous avons utilisé des exemples où le masque est bon, donnant une représentation juste des 20 premiers percentiles de nos résultats. Les utilisateurs reçoivent deux paires réelles et fausses avant l'étude. Chaque participant est ensuite testé avec 50 paires de 25 réels et


Fig. 8. Deux images synthétisées que 70 % des participants à l'étude utilisateur pensaient réelles. Notez par exemple les nuances, les plis, voire la fermeture éclair et le col.


Tableau 3. Les résultats de l'étude utilisateur montrent que les participants ont de grandes difficultés à faire la distinction entre les images réelles et synthétisées. 51,6 % et 61,5 % des fausses images sont considérées comme réelles respectivement par le public et les chercheurs. Parfois, certaines images réelles sont également considérées comme fausses, ce qui suggère que les participants y ont prêté attention.


25 faux, sans produits répétitifs. Nous testons deux populations d'utilisateurs (chercheurs en vision et participants sélectionnés au hasard).


La plupart du temps, les utilisateurs sont trompés par nos images ; il existe un taux de faux positifs (c'est-à-dire une image synthétisée marquée comme réelle par un utilisateur) très élevé (tableau 3). La figure 8 montre deux exemples d'images synthétisées que 70 % de la population générale ont déclarées réelles. Ce sont des exemples de vêtements d'extérieur rigides avec une séparation des régions et des ombres complexes. Néanmoins, notre méthode a réussi à générer une synthèse de haute qualité. Voir le matériel supplémentaire pour toutes les questions et les résultats complets de l’étude des utilisateurs.


Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.