paint-brush
Vers un essai virtuel précis et réaliste grâce à la correspondance de formes : travaux connexespar@polyframe
252 lectures

Vers un essai virtuel précis et réaliste grâce à la correspondance de formes : travaux connexes

Trop long; Pour lire

Les chercheurs améliorent les méthodes d'essai virtuel en utilisant un nouvel ensemble de données pour choisir des modèles cibles et former des warpers spécialisés, améliorant ainsi le réalisme et la précision.
featured image - Vers un essai virtuel précis et réaliste grâce à la correspondance de formes : travaux connexes
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

Auteurs:

(1) Kedan Li, Université de l'Illinois à Urbana-Champaign ;

(2) Min Jin Chong, Université de l'Illinois à Urbana-Champaign ;

(3) Jingen Liu, JD AI Research ;

(4) David Forsyth, Université de l'Illinois à Urbana-Champaign.

Tableau des liens

2. Travaux connexes

Synthèse d'images : Les réseaux de transformateurs spatiaux estiment les transformations géométriques à l'aide de réseaux de neurones [23]. Des travaux ultérieurs [28,39] montrent comment déformer un objet en un autre. La déformation peut être utilisée pour produire des images d'objets rigides [26,30] et d'objets non rigides (par exemple des vêtements) [17,12,45]. Contrairement aux travaux antérieurs, nous utilisons plusieurs warpers spatiaux.


Nos chaînes doivent être combinées en une seule image, et notre U-Net pour produire cette image suit les tendances de l'inpainting (méthodes qui remplissent les parties manquantes d'une image, voir [48,31,50,49]). Han et coll. [16,52] montrent que les méthodes d'inpainting peuvent compléter les vêtements manquants sur les personnes.


Dans notre travail, nous utilisons FID∞ pour évaluer quantitativement notre méthode. Ceci est basé sur la distance de démarrage de Frchet (FID) [18], une métrique courante dans la modélisation d'images génératives [5,54,29]. Chong et coll. [9] ont récemment montré que le FID est biaisé ; l'extrapolation supprime le biais, jusqu'à un score non biaisé (FID∞).


Générer des personnes habillées : Zhu et al. [57] ont utilisé un GAN conditionnel pour générer des images basées sur le squelette de pose et les descriptions textuelles du vêtement. SwapNet [38] apprend à transférer les vêtements d'une personne A à une personne B en démêlant les vêtements et en posant les traits. Hsiao et coll. [20] ont appris un réseau de synthèse de mannequins de mode utilisant des encodages par vêtement pour permettre une édition minimale pratique d'articles spécifiques. En revanche, nous déformons les produits sur des images de modèles réels.


La correspondance de forme est à la base de notre méthode pour faire correspondre le produit au modèle. Tsiao et coll. [19] ont construit une intégration de forme pour permettre la correspondance entre le corps humain et des vêtements bien ajustés. Des travaux antérieurs ont estimé la forme du corps humain [4,27], des vêtements [10,25] et des deux [35,40], grâce à des images 2D. Le descripteur DensePose [1] aide à modéliser la déformation et l'ombrage du tissu et a donc été adopté par des travaux récents [36,13,47,51,7,52].


L'essai virtuel (VTO) mappe un produit sur une image de modèle. VITON [17] utilise un U-Net pour générer une synthèse grossière et un masque sur le modèle où le produit est présenté. Un mappage du masque de produit au masque sur le modèle est appris via la transformation Thin Plate Spline (TPS) [3]. Le mappage appris est appliqué sur l'image du produit pour créer une déformation. Suite à leurs travaux, Wang et al. [45] ont amélioré l'architecture en utilisant un module de correspondance géométrique [39] pour estimer les paramètres de transformations TPS directement à partir de paires d'image de produit et de personne cible. Ils forment un réseau de raffinement distinct pour combiner la chaîne et l'image cible. VTNFP [53] étend les travaux en intégrant la prédiction des segments corporels et les travaux ultérieurs suivent une procédure similaire [37, 24, 42, 22,2]. Cependant, la transformation TPS ne parvient pas à produire des déformations raisonnables, en raison du bruit des masques générés dans notre ensemble de données, comme le montre la figure 6 à droite. Au lieu de cela, nous adoptons des transformations affines que nous avons trouvées plus robustes aux imperfections que la transformation TPS. Un groupe de travail suivant a étendu la tâche au multi-pose. Warping-GAN [11] combinait l'entraînement contradictoire avec GMM et générait des publications et des textures séparément à l'aide d'un réseau à deux étages. MG-VTON [12] affine davantage la méthode de génération en utilisant un réseau de génération à trois étages. D'autres travaux [21,55,51,7,46] ont suivi une procédure similaire. Han et coll. [15] ont soutenu que la transformation TPS a un faible degré de liberté et ont proposé une méthode basée sur le flux pour créer la chaîne.


De nombreux travaux d'essais virtuels existants [17,12,21,47,55,53,24,37] sont évalués sur des ensembles de données ne comportant que des hauts (t-shirt, chemise, etc.). Le fait de n'avoir que des plateaux réduit considérablement le risque d'inadéquation des formes, car les plateaux ont des formes simples et similaires. Dans notre travail, nous étendons le problème aux vêtements de toutes catégories (t-shirt, chemise, pantalon, short, robe, jupe, peignoir, veste, manteau, etc.), et proposons une méthode pour faire correspondre la forme entre le produit source et le modèle cible. L'évaluation montre que l'utilisation de paires dont la forme correspond augmente considérablement la qualité de la génération pour nos travaux et ceux des travaux antérieurs (tableau 4.3).


De plus, les vraies tenues de studio sont souvent recouvertes par un vêtement d'extérieur ouvert/déboutonné, ce qui n'est pas non plus présenté dans les travaux antérieurs [17, 12, 21, 47, 55, 53, 37]. Cela peut provoquer une partition ou une occlusion grave du vêtement et n'est pas résolu par les travaux antérieurs, comme le montre la figure 6. Nous montrons que notre module de génération multi-chaîne atténue ces difficultés.


Fig. 2. Il est difficile de transférer, par exemple, une chemise à manches longues sur un mannequin portant un t-shirt. Notre processus récupère les paires compatibles en deux étapes. Tout d’abord, nous calculons l’intégration de l’apparence d’un vêtement à l’aide d’un encodeur visuel de vêtement, formé à l’aide de paires produit-modèle et d’une attention spatiale. Ensuite, un codeur de forme calcule l'intégration de la forme à partir de l'intégration de l'apparence du vêtement. L'incorporation de forme est apprise en utilisant le contour du produit comme métrique, ce qui préserve uniquement les informations de forme. Lors du transfert, nous choisissons un modèle portant un vêtement compatible en recherchant dans l'espace d'intégration de forme.


Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.