Auteurs:
(1) Kedan Li, Université de l'Illinois à Urbana-Champaign ;
(2) Min Jin Chong, Université de l'Illinois à Urbana-Champaign ;
(3) Jingen Liu, JD AI Research ;
(4) David Forsyth, Université de l'Illinois à Urbana-Champaign.
Une méthode d'essai virtuel prend une image de produit et une image d'un modèle et produit une image du modèle portant le produit. La plupart des méthodes calculent essentiellement les déformations de l'image du produit à l'image du modèle et les combinent à l'aide de méthodes de génération d'images. Cependant, obtenir une image réaliste est un défi car la cinématique des vêtements est complexe et parce que le contour, la texture et les ombres de l'image révèlent des erreurs aux spectateurs humains. Le vêtement doit avoir des drapés appropriés ; la texture doit être déformée pour correspondre à la forme d'un vêtement drapé ; les petits détails (boutons, cols, revers, poches, etc.) doivent être placés de manière appropriée sur le vêtement, et ainsi de suite. L'évaluation est particulièrement difficile et est généralement qualitative.
Cet article utilise une évaluation quantitative sur un ensemble de données nouveau et complexe pour démontrer que (a) pour toute méthode de déformation, on peut choisir automatiquement des modèles cibles pour améliorer les résultats, et (b) l'apprentissage de plusieurs warpers spécialisés coordonnés offre de nouvelles améliorations des résultats. Les modèles cibles sont choisis par une procédure d'intégration apprise qui prédit une représentation des produits que porte le modèle. Cette prédiction est utilisée pour faire correspondre les produits aux modèles. Les ourdisseurs spécialisés sont formés selon une méthode qui encourage un deuxième ourdisseur à bien fonctionner dans les endroits où le premier fonctionne mal. Les chaînes sont ensuite combinées à l'aide d'un U-Net. L'évaluation qualitative confirme que ces améliorations concernent globalement les contours, les nuances de texture et les détails des vêtements.
Mots-clés : Mode, Essayage virtuel, Génération d'images, Déformation d'images
Le commerce électronique signifie ne pas pouvoir essayer un produit, ce qui est difficile pour les consommateurs de mode [44]. Les sites proposent désormais régulièrement des séances photo de mannequins portant des produits, mais le volume et le chiffre d'affaires signifient que cela est très coûteux et prend beaucoup de temps [34]. Il est nécessaire de générer des images réalistes et précises de mannequins portant différents ensembles de vêtements. On pourrait utiliser des modèles 3D de posture [8,14]. L’alternative – synthétiser des images de modèle de produit sans mesures 3D [17,45,39,11,15] – est connue sous le nom d’essai virtuel. Ces méthodes se composent généralement de deux composants : 1) un transformateur spatial pour déformer le produit
image utilisant une certaine estimation de la pose du modèle et 2) un réseau de génération d'images qui combine le produit déformé grossièrement aligné avec l'image du modèle pour produire une image réaliste du modèle portant le produit.
Il est beaucoup plus facile de le transférer avec des vêtements simples comme les t-shirts, qui sont soulignés dans la littérature. Les vêtements généraux (contrairement aux t-shirts) peuvent s'ouvrir sur le devant ; avoir des rideaux sophistiqués; avoir des structures façonnées comme des cols et des poignets ; avoir des boutons ; et ainsi de suite. Ces effets remettent sérieusement en question les méthodes existantes (exemples dans les documents supplémentaires). La déformation est considérablement améliorée si l'on utilise l'image du produit pour choisir une image de modèle adaptée à ce vêtement (Figure 1).
Cela est dû au moins en partie à la manière dont les réseaux de génération d’images sont formés. Nous nous entraînons en utilisant des images appariées – un produit et un modèle portant un produit [17,45,53]. Cela signifie que le réseau de génération s'attend toujours à ce que l'image cible soit adaptée au produit (il n'est donc pas formé pour, par exemple, mettre un pull sur un mannequin portant une robe, Figure 1). Une alternative consiste à utiliser une formation contradictoire [11,12,38,13,37] ; mais il est difficile de préserver des détails spécifiques d'un produit (par exemple, un style particulier de boutons, un autocollant sur un t-shirt) dans ce cadre. Pour faire face à cette difficulté, nous apprenons un espace d'intégration pour choisir des paires produit-modèle qui se traduiront par des transferts de haute qualité (Figure 2). L'intégration apprend à prédire quelle forme prendrait un vêtement dans une image de modèle s'il se trouvait dans une image de produit. Les produits sont ensuite associés à des modèles portant des vêtements de forme similaire. Étant donné que les modèles portent généralement de nombreux vêtements, nous utilisons un encodeur visuel d'attention spatiale pour analyser chaque catégorie (haut, bas, vêtements d'extérieur, tout le corps, etc.) de vêtement et les intégrer séparément.
Un autre problème se pose lorsqu'un vêtement est ouvert (par exemple un manteau déboutonné). Dans ce cas, la cible de la chaîne peut avoir plusieurs composants connectés. Les Warpers ont tendance à réagir en ajustant bien une région et l'autre mal, ce qui entraîne des détails mal alignés (les boutons de la figure 1). De telles erreurs peuvent contribuer peu à la perte de formation, mais elles sont très apparentes et sont considérées comme de graves problèmes par les utilisateurs réels. Nous montrons que l’utilisation de plusieurs chaînes spécialisées coordonnées produit des améliorations quantitatives et qualitatives substantielles du gauchissement. Notre warper produit plusieurs chaînes, entraînées à se coordonner les unes avec les autres. Un réseau d'inpainting combine les chaînes et le modèle masqué et crée une image de synthèse. Le réseau d'inpainting apprend essentiellement à choisir entre les chaînes, tout en fournissant également des conseils au warper, à mesure qu'ils sont formés conjointement. L'évaluation qualitative confirme qu'une partie importante de l'amélioration résulte de meilleures prédictions des boutons, poches, étiquettes, etc.
Nous montrons des évaluations quantitatives à grande échelle de l’essayage virtuel. Nous avons collecté un nouvel ensemble de données de 422 756 paires d’images de produits et de photos de studio en exploitant des sites de commerce électronique de mode. L'ensemble de données contient plusieurs catégories de produits. Nous comparons avec les travaux antérieurs sur l'ensemble de données VITON établi [17] à la fois quantitativement et qualitativement. Les résultats quantitatifs montrent que le choix des paires produit-modèle à l'aide de notre intégration de formes entraîne des améliorations significatives pour tous les pipelines de génération d'images (tableau 4.3). L’utilisation de plusieurs chaînes surpasse également systématiquement la référence de base d’une seule chaîne, comme le démontrent les résultats quantitatifs (tableau 4.3, figure 5) et qualitatifs (figure 7). Une comparaison qualitative avec des travaux antérieurs montre que notre système préserve les détails du vêtement à changer et du modèle cible avec plus de précision que les travaux antérieurs. Nous avons mené une étude utilisateur simulant le coût du commerce électronique pour remplacer le modèle réel par un modèle synthétisé. Le résultat montre que 40 % de notre modèle synthétisé sont considérés comme des modèles réels.
En résumé de nos contributions :
– nous introduisons une procédure de matching qui se traduit par des améliorations qualitatives et quantitatives significatives de l'essayage virtuel, quel que soit le warper utilisé.
– nous introduisons un modèle de déformation qui apprend plusieurs déformations coordonnées et surpasse systématiquement les lignes de base sur tous les ensembles de tests.
– nos résultats générés préservent les détails avec suffisamment de précision et de réalisme pour faire croire aux acheteurs que certaines des images synthétisées sont réelles.
Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.