paint-brush
Auf dem Weg zum präzisen, realistischen virtuellen Anprobieren durch Formabgleich: Zusammenfassung und Einführungvon@polyframe
282 Lesungen

Auf dem Weg zum präzisen, realistischen virtuellen Anprobieren durch Formabgleich: Zusammenfassung und Einführung

Zu lang; Lesen

Forscher verbessern virtuelle Anprobemethoden, indem sie mithilfe eines neuen Datensatzes Zielmodelle auswählen und spezialisierte Warper trainieren, um so den Realismus und die Genauigkeit zu steigern.
featured image - Auf dem Weg zum präzisen, realistischen virtuellen Anprobieren durch Formabgleich: Zusammenfassung und Einführung
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

Autoren:

(1) Kedan Li, Universität von Illinois in Urbana-Champaign;

(2) Min Jin Chong, Universität von Illinois in Urbana-Champaign;

(3) Jingen Liu, JD AI Research;

(4) David Forsyth, Universität von Illinois in Urbana-Champaign.

Linktabelle

Abstrakt

Bei einer virtuellen Anprobemethode werden ein Produktbild und ein Bild eines Models verwendet, um ein Bild des Models zu erstellen, das das Produkt trägt. Die meisten Methoden berechnen im Wesentlichen Verzerrungen vom Produktbild zum Modelbild und kombinieren diese mithilfe von Bildgenerierungsmethoden. Es ist jedoch schwierig, ein realistisches Bild zu erhalten, da die Kinematik von Kleidungsstücken komplex ist und Umrisse, Texturen und Schattierungen im Bild Fehler für menschliche Betrachter offenbaren. Das Kleidungsstück muss angemessen drapiert sein; die Textur muss verzerrt sein, um mit der Form eines drapierten Kleidungsstücks übereinzustimmen; kleine Details (Knöpfe, Kragen, Revers, Taschen usw.) müssen angemessen am Kleidungsstück platziert sein und so weiter. Die Bewertung ist besonders schwierig und erfolgt in der Regel qualitativ.


In diesem Artikel wird eine quantitative Auswertung eines anspruchsvollen, neuartigen Datensatzes verwendet, um zu demonstrieren, dass (a) man für jede Warping-Methode automatisch Zielmodelle auswählen kann, um die Ergebnisse zu verbessern, und (b) das Lernen mehrerer koordinierter spezialisierter Warper weitere Ergebnisverbesserungen bietet. Zielmodelle werden durch ein erlerntes Einbettungsverfahren ausgewählt, das eine Darstellung der Produkte vorhersagt, die das Modell trägt. Diese Vorhersage wird verwendet, um Produkte den Modellen zuzuordnen. Spezialisierte Warper werden durch eine Methode trainiert, die einen zweiten Warper dazu anregt, an Stellen gute Leistungen zu erbringen, an denen der erste schlecht funktioniert. Die Warper werden dann mithilfe eines U-Net kombiniert. Die qualitative Auswertung bestätigt, dass diese Verbesserungen sich auf Umrisse, Texturschattierungen und Kleidungsstückdetails auswirken.


Schlagwörter: Mode, Virtuelle Anprobe, Bildgenerierung, Bildverzerrung

1. Einleitung

Beim E-Commerce ist es nicht möglich, ein Produkt anzuprobieren, was für Modekonsumenten schwierig ist [44]. Websites bieten mittlerweile routinemäßig Fotoshootings von Models an, die Produkte tragen, aber aufgrund der Menge und des Umsatzes ist dies sehr teuer und zeitaufwändig [34]. Es besteht die Notwendigkeit, realistische und genaue Bilder von Modemodels in verschiedenen Kleidungsstücken zu erstellen. Man könnte 3D-Modelle der Körperhaltung verwenden [8,14]. Die Alternative – die Synthese von Produktmodellbildern ohne 3D-Messungen [17,45,39,11,15] – wird als virtuelle Anprobe bezeichnet. Diese Methoden bestehen normalerweise aus zwei Komponenten: 1) einem räumlichen Transformator zum Verformen des Produkts


Abb. 1. Die Übertragung eines Produkts auf ein schlecht gewähltes Modell führt zu Schwierigkeiten (zufälliges Modell; beachten Sie, wie der Blazer links gequetscht und der Pullover rechts gestreckt wurde). Unsere Methode kann ein gutes Zielmodell für ein bestimmtes Produkt auswählen, was zu einer erheblichen qualitativen und quantitativen Verbesserung der Übertragungen führt (ausgewähltes Modell). Darüber hinaus trainieren wir mehrere Warper, koordiniert zu handeln, was die Generierungsergebnisse weiter verbessert (verbessert; die Knopflöcher an der Jacke sind links an der richtigen Stelle und die Knopfreihe an der Strickjacke ist rechts plausibel). Die Abbildung zeigt, dass (a) die sorgfältige Auswahl des zu warpenden Modells und (b) die Verwendung mehrerer spezialisierter Warper die Übertragung erheblich verbessern. Die quantitativen Ergebnisse in Tabelle 4.3 unterstützen die beiden genannten Punkte nachdrücklich.


Bild unter Verwendung einer Schätzung der Pose des Modells und 2) ein Bildgenerierungsnetzwerk, das das grob ausgerichtete, verzerrte Produkt mit dem Modellbild kombiniert, um ein realistisches Bild des Modells zu erzeugen, das das Produkt trägt.


Bei einfachen Kleidungsstücken wie T-Shirts, die in der Literatur besonders hervorgehoben werden, ist die Übertragung viel einfacher. Normale Kleidungsstücke (im Gegensatz zu T-Shirts) können vorne offen sein, raffinierte Faltenwürfe haben, geformte Strukturen wie Kragen und Manschetten aufweisen, Knöpfe haben usw. Diese Effekte stellen eine große Herausforderung für bestehende Methoden dar (Beispiele in den Zusatzmaterialien). Die Verformung lässt sich deutlich verbessern, wenn man anhand des Produktbilds ein Modellbild auswählt, das zu diesem Kleidungsstück passt (Abbildung 1).


Zumindest teilweise ist dies ein Ergebnis der Art und Weise, wie Bildgenerierungsnetzwerke trainiert werden. Wir trainieren mit gepaarten Bildern – einem Produkt und einem Modell, das ein Produkt trägt [17,45,53]. Das bedeutet, dass das Generierungsnetzwerk immer erwartet, dass das Zielbild für das Produkt geeignet ist (es wird also nicht darauf trainiert, beispielsweise einem Modell, das ein Kleid trägt, einen Pullover anzuziehen, Abbildung 1). Eine Alternative besteht darin, ein kontroverses Training zu verwenden [11,12,38,13,37]; es ist jedoch schwierig, in diesem Rahmen bestimmte Produktdetails (z. B. einen bestimmten Knopfstil, einen Aufkleber auf einem T-Shirt) beizubehalten. Um diese Schwierigkeit zu bewältigen, lernen wir einen Einbettungsraum für die Auswahl von Produkt-Modell-Paaren, die zu qualitativ hochwertigen Übertragungen führen (Abbildung 2). Die Einbettung lernt vorherzusagen, welche Form ein Kleidungsstück in einem Modellbild annehmen würde, wenn es in einem Produktbild wäre. Produkte werden dann mit Modellen abgeglichen, die ähnlich geformte Kleidungsstücke tragen. Da Models typischerweise viele Kleidungsstücke tragen, verwenden wir einen visuellen Encoder mit räumlicher Aufmerksamkeit, um jede Kategorie (Oberteil, Unterteil, Oberbekleidung, Ganzkörperbekleidung usw.) von Kleidungsstücken zu analysieren und jede separat einzubetten.


Ein weiteres Problem entsteht, wenn ein Kleidungsstück offen ist (z. B. ein aufgeknöpfter Mantel). In diesem Fall kann das Ziel des Warps mehr als eine verbundene Komponente haben. Warper reagieren darauf in der Regel, indem sie einen Bereich gut und den anderen schlecht anpassen, was zu falsch ausgerichteten Details führt (die Knöpfe in Abbildung 1). Solche Fehler tragen möglicherweise kaum zum Trainingsverlust bei, sind aber sehr offensichtlich und werden von echten Benutzern als schwerwiegende Probleme angesehen. Wir zeigen, dass die Verwendung mehrerer koordinierter spezialisierter Warps erhebliche quantitative und qualitative Verbesserungen beim Warping bringt. Unser Warper erzeugt mehrere Warps, die darauf trainiert sind, sich gegenseitig zu koordinieren. Ein Inpainting-Netzwerk kombiniert die Warps und das maskierte Modell und erstellt ein synthetisiertes Bild. Das Inpainting-Netzwerk lernt im Wesentlichen, zwischen den Warps zu wählen, und bietet dem Warper gleichzeitig Anleitung, da sie gemeinsam trainiert werden. Die qualitative Bewertung bestätigt, dass ein wichtiger Teil der Verbesserung auf bessere Vorhersagen von Knöpfen, Taschen, Etiketten und dergleichen zurückzuführen ist.


Wir zeigen groß angelegte quantitative Auswertungen der virtuellen Anprobe. Wir haben einen neuen Datensatz mit 422.756 Paaren von Produktbildern und Studiofotos gesammelt, indem wir E-Commerce-Websites für Mode durchforstet haben. Der Datensatz enthält mehrere Produktkategorien. Wir vergleichen ihn sowohl quantitativ als auch qualitativ mit früheren Arbeiten am etablierten VITON-Datensatz [17]. Das quantitative Ergebnis zeigt, dass die Auswahl der Produkt-Modell-Paare unter Verwendung unserer Formeinbettung erhebliche Verbesserungen für alle Bildgenerierungs-Pipelines bringt (Tabelle 4.3). Die Verwendung mehrerer Warps übertrifft auch durchweg die Single-Warp-Baseline, was sowohl durch quantitative (Tabelle 4.3, Abbildung 5) als auch qualitative (Abbildung 7) Ergebnisse belegt wird. Der qualitative Vergleich mit früheren Arbeiten zeigt, dass unser System die Details sowohl des zu wechselnden Kleidungsstücks als auch des Zielmodells genauer bewahrt als frühere Arbeiten. Wir haben eine Benutzerstudie durchgeführt, in der die Kosten für den E-Commerce simuliert wurden, um das reale Modell durch ein synthetisiertes Modell zu ersetzen. Das Ergebnis zeigt, dass 40 % unseres synthetisierten Modells als reale Modelle angesehen werden.


Als Zusammenfassung unserer Beiträge:


– wir führen ein Matching-Verfahren ein, das unabhängig vom verwendeten Kettgerät zu deutlichen qualitativen und quantitativen Verbesserungen bei der virtuellen Anprobe führt.


– wir stellen ein Warping-Modell vor, das mehrere koordinierte Warps lernt und in allen Test-Sets konstant bessere Ergebnisse erzielt als die Baselines.

– unsere generierten Ergebnisse bewahren Details genau und realistisch genug, um Käufer glauben zu machen, dass einige der synthetisierten Bilder echt sind.