Autoren:
(1) Kedan Li, Universität von Illinois in Urbana-Champaign;
(2) Min Jin Chong, Universität von Illinois in Urbana-Champaign;
(3) Jingen Liu, JD AI Research;
(4) David Forsyth, Universität von Illinois in Urbana-Champaign.
Bei einer virtuellen Anprobemethode werden ein Produktbild und ein Bild eines Models verwendet, um ein Bild des Models zu erstellen, das das Produkt trägt. Die meisten Methoden berechnen im Wesentlichen Verzerrungen vom Produktbild zum Modelbild und kombinieren diese mithilfe von Bildgenerierungsmethoden. Es ist jedoch schwierig, ein realistisches Bild zu erhalten, da die Kinematik von Kleidungsstücken komplex ist und Umrisse, Texturen und Schattierungen im Bild Fehler für menschliche Betrachter offenbaren. Das Kleidungsstück muss angemessen drapiert sein; die Textur muss verzerrt sein, um mit der Form eines drapierten Kleidungsstücks übereinzustimmen; kleine Details (Knöpfe, Kragen, Revers, Taschen usw.) müssen angemessen am Kleidungsstück platziert sein und so weiter. Die Bewertung ist besonders schwierig und erfolgt in der Regel qualitativ.
In diesem Artikel wird eine quantitative Auswertung eines anspruchsvollen, neuartigen Datensatzes verwendet, um zu demonstrieren, dass (a) man für jede Warping-Methode automatisch Zielmodelle auswählen kann, um die Ergebnisse zu verbessern, und (b) das Lernen mehrerer koordinierter spezialisierter Warper weitere Ergebnisverbesserungen bietet. Zielmodelle werden durch ein erlerntes Einbettungsverfahren ausgewählt, das eine Darstellung der Produkte vorhersagt, die das Modell trägt. Diese Vorhersage wird verwendet, um Produkte den Modellen zuzuordnen. Spezialisierte Warper werden durch eine Methode trainiert, die einen zweiten Warper dazu anregt, an Stellen gute Leistungen zu erbringen, an denen der erste schlecht funktioniert. Die Warper werden dann mithilfe eines U-Net kombiniert. Die qualitative Auswertung bestätigt, dass diese Verbesserungen sich auf Umrisse, Texturschattierungen und Kleidungsstückdetails auswirken.
Schlagwörter: Mode, Virtuelle Anprobe, Bildgenerierung, Bildverzerrung
Beim E-Commerce ist es nicht möglich, ein Produkt anzuprobieren, was für Modekonsumenten schwierig ist [44]. Websites bieten mittlerweile routinemäßig Fotoshootings von Models an, die Produkte tragen, aber aufgrund der Menge und des Umsatzes ist dies sehr teuer und zeitaufwändig [34]. Es besteht die Notwendigkeit, realistische und genaue Bilder von Modemodels in verschiedenen Kleidungsstücken zu erstellen. Man könnte 3D-Modelle der Körperhaltung verwenden [8,14]. Die Alternative – die Synthese von Produktmodellbildern ohne 3D-Messungen [17,45,39,11,15] – wird als virtuelle Anprobe bezeichnet. Diese Methoden bestehen normalerweise aus zwei Komponenten: 1) einem räumlichen Transformator zum Verformen des Produkts
Bild unter Verwendung einer Schätzung der Pose des Modells und 2) ein Bildgenerierungsnetzwerk, das das grob ausgerichtete, verzerrte Produkt mit dem Modellbild kombiniert, um ein realistisches Bild des Modells zu erzeugen, das das Produkt trägt.
Bei einfachen Kleidungsstücken wie T-Shirts, die in der Literatur besonders hervorgehoben werden, ist die Übertragung viel einfacher. Normale Kleidungsstücke (im Gegensatz zu T-Shirts) können vorne offen sein, raffinierte Faltenwürfe haben, geformte Strukturen wie Kragen und Manschetten aufweisen, Knöpfe haben usw. Diese Effekte stellen eine große Herausforderung für bestehende Methoden dar (Beispiele in den Zusatzmaterialien). Die Verformung lässt sich deutlich verbessern, wenn man anhand des Produktbilds ein Modellbild auswählt, das zu diesem Kleidungsstück passt (Abbildung 1).
Zumindest teilweise ist dies ein Ergebnis der Art und Weise, wie Bildgenerierungsnetzwerke trainiert werden. Wir trainieren mit gepaarten Bildern – einem Produkt und einem Modell, das ein Produkt trägt [17,45,53]. Das bedeutet, dass das Generierungsnetzwerk immer erwartet, dass das Zielbild für das Produkt geeignet ist (es wird also nicht darauf trainiert, beispielsweise einem Modell, das ein Kleid trägt, einen Pullover anzuziehen, Abbildung 1). Eine Alternative besteht darin, ein kontroverses Training zu verwenden [11,12,38,13,37]; es ist jedoch schwierig, in diesem Rahmen bestimmte Produktdetails (z. B. einen bestimmten Knopfstil, einen Aufkleber auf einem T-Shirt) beizubehalten. Um diese Schwierigkeit zu bewältigen, lernen wir einen Einbettungsraum für die Auswahl von Produkt-Modell-Paaren, die zu qualitativ hochwertigen Übertragungen führen (Abbildung 2). Die Einbettung lernt vorherzusagen, welche Form ein Kleidungsstück in einem Modellbild annehmen würde, wenn es in einem Produktbild wäre. Produkte werden dann mit Modellen abgeglichen, die ähnlich geformte Kleidungsstücke tragen. Da Models typischerweise viele Kleidungsstücke tragen, verwenden wir einen visuellen Encoder mit räumlicher Aufmerksamkeit, um jede Kategorie (Oberteil, Unterteil, Oberbekleidung, Ganzkörperbekleidung usw.) von Kleidungsstücken zu analysieren und jede separat einzubetten.
Ein weiteres Problem entsteht, wenn ein Kleidungsstück offen ist (z. B. ein aufgeknöpfter Mantel). In diesem Fall kann das Ziel des Warps mehr als eine verbundene Komponente haben. Warper reagieren darauf in der Regel, indem sie einen Bereich gut und den anderen schlecht anpassen, was zu falsch ausgerichteten Details führt (die Knöpfe in Abbildung 1). Solche Fehler tragen möglicherweise kaum zum Trainingsverlust bei, sind aber sehr offensichtlich und werden von echten Benutzern als schwerwiegende Probleme angesehen. Wir zeigen, dass die Verwendung mehrerer koordinierter spezialisierter Warps erhebliche quantitative und qualitative Verbesserungen beim Warping bringt. Unser Warper erzeugt mehrere Warps, die darauf trainiert sind, sich gegenseitig zu koordinieren. Ein Inpainting-Netzwerk kombiniert die Warps und das maskierte Modell und erstellt ein synthetisiertes Bild. Das Inpainting-Netzwerk lernt im Wesentlichen, zwischen den Warps zu wählen, und bietet dem Warper gleichzeitig Anleitung, da sie gemeinsam trainiert werden. Die qualitative Bewertung bestätigt, dass ein wichtiger Teil der Verbesserung auf bessere Vorhersagen von Knöpfen, Taschen, Etiketten und dergleichen zurückzuführen ist.
Wir zeigen groß angelegte quantitative Auswertungen der virtuellen Anprobe. Wir haben einen neuen Datensatz mit 422.756 Paaren von Produktbildern und Studiofotos gesammelt, indem wir E-Commerce-Websites für Mode durchforstet haben. Der Datensatz enthält mehrere Produktkategorien. Wir vergleichen ihn sowohl quantitativ als auch qualitativ mit früheren Arbeiten am etablierten VITON-Datensatz [17]. Das quantitative Ergebnis zeigt, dass die Auswahl der Produkt-Modell-Paare unter Verwendung unserer Formeinbettung erhebliche Verbesserungen für alle Bildgenerierungs-Pipelines bringt (Tabelle 4.3). Die Verwendung mehrerer Warps übertrifft auch durchweg die Single-Warp-Baseline, was sowohl durch quantitative (Tabelle 4.3, Abbildung 5) als auch qualitative (Abbildung 7) Ergebnisse belegt wird. Der qualitative Vergleich mit früheren Arbeiten zeigt, dass unser System die Details sowohl des zu wechselnden Kleidungsstücks als auch des Zielmodells genauer bewahrt als frühere Arbeiten. Wir haben eine Benutzerstudie durchgeführt, in der die Kosten für den E-Commerce simuliert wurden, um das reale Modell durch ein synthetisiertes Modell zu ersetzen. Das Ergebnis zeigt, dass 40 % unseres synthetisierten Modells als reale Modelle angesehen werden.
Als Zusammenfassung unserer Beiträge:
– wir führen ein Matching-Verfahren ein, das unabhängig vom verwendeten Kettgerät zu deutlichen qualitativen und quantitativen Verbesserungen bei der virtuellen Anprobe führt.
– wir stellen ein Warping-Modell vor, das mehrere koordinierte Warps lernt und in allen Test-Sets konstant bessere Ergebnisse erzielt als die Baselines.
– unsere generierten Ergebnisse bewahren Details genau und realistisch genug, um Käufer glauben zu machen, dass einige der synthetisierten Bilder echt sind.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar .