Auteurs:
(1) Kedan Li, Université de l'Illinois à Urbana-Champaign ;
(2) Min Jin Chong, Université de l'Illinois à Urbana-Champaign ;
(3) Jingen Liu, JD AI Research ;
(4) David Forsyth, Université de l'Illinois à Urbana-Champaign.
Notre méthode comporte deux volets. Un réseau de correspondance de forme (SMN ; figures 2 et 3) apprend une intégration pour choisir des paires vêtement-modèle compatibles en termes de forme pour effectuer le transfert. Les images de produits et de modèles sont mises en correspondance en recherchant des images de produits (resp. modèles) proches dans l'espace d'intégration. Un filet d'essai multi-chaînes (MTN ; figure 4) prend en compte une image de vêtement, une image de modèle et un masque recouvrant le vêtement à changer sur le modèle et génère une image de synthèse réaliste du modèle portant le vêtement fourni. Le réseau est constitué d'un réseau warper et d'un réseau inpainting, formés conjointement. Le warper produit des k chaînes de l'image du produit, chacune spécialisée sur certaines fonctionnalités. Le réseau d'inpainting apprend à combiner les chaînes en choisissant les caractéristiques à rechercher dans chaque chaîne. SMN et MTN sont formés séparément.
La perte d'intégration est utilisée pour capturer la correspondance des fonctionnalités des deux domaines et aider à renforcer le mécanisme d'attention intégré dans l'architecture du réseau. Les détails sur l'architecture de l'attention spatiale se trouvent dans les documents supplémentaires.
Comme pour les travaux antérieurs [17,45], notre système se compose également de deux modules : (a) un warper pour créer plusieurs chaînes spécialisées , en alignant l'image du produit avec le masque ; (b) un module d'inpainting pour combiner les chaînes avec le modèle masqué et produire l'image de synthèse. Contrairement aux travaux antérieurs [17, 45], les deux modules sont formés conjointement plutôt que séparément, de sorte que l'inpainter guide l'ourdisseur.
Perte en cascade : avec plusieurs chaînes, chaque chaîne wi est entraînée pour corriger les erreurs commises par les chaînes précédentes wj où j < i. Pour la k ème chaîne, nous calculons la perte minimale parmi toutes les chaînes précédentes à chaque pixel, écrite sous la forme
La perte en cascade calcule la perte moyenne pour toutes les déformations. Des termes de régularisation supplémentaires sont appliqués aux paramètres de transformation, de sorte que toutes les chaînes ultérieures restent proches de la première chaîne.
La perte en cascade impose une hiérarchie entre toutes les chaînes, ce qui rend plus coûteuse une erreur pour une chaîne antérieure que pour une chaîne ultérieure. Cela évite d'éventuelles oscillations pendant l'entraînement (plusieurs chaînes se disputent l'optimum). L'idée est comparable au boosting, mais pourtant différente car toutes les chaînes partagent un gradient, ce qui permet aux chaînes antérieures de s'ajuster en fonction des chaînes ultérieures.
Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.