Autoren:
(1) Kedan Li, Universität von Illinois in Urbana-Champaign;
(2) Min Jin Chong, Universität von Illinois in Urbana-Champaign;
(3) Jingen Liu, JD AI Research;
(4) David Forsyth, Universität von Illinois in Urbana-Champaign.
Der VITON-Datensatz [17] enthält Paare von Produktbildern (Frontansicht, flach liegend, weißer Hintergrund) und Studiobildern, 2D-Pose-Maps und Pose-Keypoints. Er wurde in vielen Arbeiten [45,11,15,53,24,22,2,37] verwendet. Einige Arbeiten [47,15,13,51] zum Thema Multi-Pose-Matching verwendeten DeepFashion [33] oder MVC [32] und andere selbst gesammelte Datensätze [12,21,47,55]. Diese Datensätze enthalten dasselbe Produkt, das von mehreren Personen getragen wird, verfügen jedoch über kein Produktbild und sind daher für unsere Aufgabe nicht geeignet.
Der VITON-Datensatz enthält nur Oberteile. Dies verzerrt wahrscheinlich die Leistung, weil (zum Beispiel) Hosen anders fallen als Oberteile; manche Kleidungsstücke (Bademäntel, Jacken usw.) oft geöffnet sind, was zu Verformungen führt; der Fall von Röcken sehr variabel ist und von Details wie Falten, Ausrichtung der Stoffmaserung usw. abhängt. Um diese realen Probleme hervorzuheben, haben wir durch Web Scraping von E-Commerce-Websites für Mode einen neuen Datensatz mit 422.756 Modeprodukten erhoben. Jedes Produkt enthält ein Produktbild (Vorderansicht, flach liegend, weißer Hintergrund), ein Modellbild (einzelne Person, meist Frontansicht) und andere Metadaten. Wir verwenden alle Kategorien außer Schuhen und Accessoires und gruppieren sie in vier Typen (Oberteile, Unterteile, Oberbekleidung oder Ganzkörper). Typdetails erscheinen in den ergänzenden Materialien.
Wir haben die Daten zufällig aufgeteilt, und zwar in 80 % für das Training und 20 % für das Testen. Da der Datensatz keine Segmentierungsannotation enthält, verwenden wir Deeplab v3 [6], das auf dem ModaNet-Datensatz [56] vortrainiert wurde, um die Segmentierungsmasken für die Modellbilder zu erhalten. Ein großer Teil der Segmentierungsmasken ist verrauscht, was den Schwierigkeitsgrad weiter erhöht (siehe Zusatzmaterialien).
Wir trainieren unser Modell anhand unseres neu gesammelten Datensatzes und des VITON-Datensatzes [17], um den Vergleich mit früheren Arbeiten zu erleichtern. Wenn wir unsere Methode anhand des VITON-Datensatzes trainieren, extrahieren wir nur den Teil der 2D-Pose-Map, der dem Produkt entspricht, um die Segmentierungsmaske zu erhalten, und verwerfen den Rest. Die Einzelheiten des Trainingsverfahrens finden Sie in den Zusatzmaterialien.
Wir haben auch versucht, frühere Arbeiten mit unserem Datensatz zu trainieren. Frühere Arbeiten [45,17,11,15,53,24,22,13,47,51,7,37] erfordern jedoch Pose-Estimation-Annotationen, die in unserem Datensatz nicht verfügbar sind. Daher vergleichen wir nur mit früheren Arbeiten mit dem VITON-Datensatz.
Ein quantitativer Vergleich mit dem Stand der Technik ist schwierig. Die Angabe des FID in anderen Arbeiten ist sinnlos, da der Wert verzerrt ist und die Verzerrung von den Parametern des verwendeten Netzwerks abhängt [9,37]. Wir verwenden den FID∞-Score, der unverzerrt ist. Für die meisten anderen Methoden können wir den FID∞ nicht berechnen, da die Ergebnisse nicht veröffentlicht wurden; tatsächlich gibt es für neuere Methoden (z. B. [15,53,24,24,42,22,2]) keine veröffentlichte Implementierung. CP-VTON [45] hat eine solche Implementierung, und wir verwenden dies als Vergleichspunkt.
Die meisten Auswertungen sind qualitativ, und andere [24,37] haben den FID-Score auch auf dem ursprünglichen Testsatz von VITON berechnet, der aus nur 2.032 synthetisierten Paaren besteht. Wegen des kleinen Datensatzes ist dieser FID-Score nicht aussagekräftig. Die aus der Berechnung entstehende Varianz wird hoch sein, was zu einer großen Verzerrung des FID-Scores führt und ihn ungenau macht. Um einen genauen Vergleich zu gewährleisten, haben wir durch zufälliges Matching einen größeren Testsatz aus 50.000 synthetisierten Paaren erstellt, wobei wir dem Verfahren der ursprünglichen Arbeit [17] folgten. Wir haben neue Testsätze mithilfe unseres Formmatching-Modells erstellt, indem wir für jedes Element des ursprünglichen Testsatzes die 25 nächsten Nachbarn im Formeinbettungsraum ausgewählt haben. Wir erstellen zwei Datensätze mit jeweils 50.000 Paaren und verwenden Farbbilder und Graustufenbilder, um die Formeinbettung zu berechnen. Die Graustufenablation gibt Aufschluss darüber, ob die Formeinbettung Farbmerkmale berücksichtigt.
Die Anzahl der Warps wird durch Berechnung des L1-Fehlers und des Wahrnehmungsfehlers (mit VGG19, vorab auf ImageNet trainiert) unter Verwendung von Warpern mit unterschiedlichem k im Testset unseres Datensatzes gewählt. Hier wird der Warper ausgewertet, indem ein Produkt einem Modell zugeordnet wird, das dieses Produkt trägt. Wie in Abbildung 5 gezeigt, übertrifft k = 2 durchweg die Leistung von k = 1. Mehr als zwei Warps verringern jedoch auch die Leistung bei der aktuellen Trainingskonfiguration, möglicherweise aufgrund von Überanpassung.
Wir wählen β, indem wir ein einzelnes Warp-Modell mit unterschiedlichen β-Werten trainieren und dabei 10 % des Datensatzes verwenden und es dann im Test auswerten. Tabelle 1 zeigt, dass ein zu großes oder zu kleines β die Leistung mindert. β = 3 ist am besten und wird daher übernommen. Qualitative Vergleiche sind in ergänzenden Materialien verfügbar.
Mit diesen Daten können wir CP-VTON vergleichen, unsere Methode mit einem einzelnen Warp (k = 1) und zwei Warps (k = 2) und zwei gemischten Warps. Das gemischte Modell berücksichtigt den Durchschnitt von zwei Warps anstelle der Verkettung. Die Ergebnisse erscheinen in Tabelle 4.3. Wir finden:
– bei allen Methoden führt die Wahl des Modells zu besseren Ergebnissen;
– es gibt kaum eine Auswahl zwischen Farb- und Graustufenabstimmung, die Abstimmung erfolgt daher hauptsächlich nach der Form des Kleidungsstücks;
– zwei Zettel zu haben ist besser als einen;
– die Kombination mit einem U-Net ist viel besser als das Mischen.
Wir glauben, dass die quantitativen Ergebnisse die Verbesserung durch den Einsatz von mehr Schärmaschinen unterschätzen, da die quantitative Messung relativ grob ist. Qualitative Beweise stützen diese Annahme (Abbildung 7).
Wir haben sorgfältig nach passenden Beispielen in [15,24,53,37] gesucht, um qualitative Vergleiche anzustellen. Ein Vergleich mit MG-VTON [12] ist nicht anwendbar, da die Arbeit kein qualitatives Beispiel mit fester Pose enthielt. Beachten Sie, dass der Vergleich frühere Arbeiten begünstigt, da unser Modell nur mit der Region trainiert und getestet wird, die dem Kleidungsstück in der 2D-Pose-Map entspricht, während frühere Arbeiten die vollständige 2D-Pose-Map und Key-Point-Pose-Annotationen verwenden.
Generell ist die Übertragung von Kleidungsstücken schwierig, aber moderne Methoden scheitern heute vor allem an Details. Das bedeutet, dass die Bewertung der Übertragung eine sorgfältige Beachtung der Details erfordert. Abbildung 6 zeigt einige Vergleiche. Insbesondere die Beachtung der Bilddetails an Rändern, Texturen und Kleidungsstückdetails offenbart einige der Schwierigkeiten dieser Aufgabe. Wie in Abbildung 6 links gezeigt, kann unsere Methode komplizierte Texturen robust verarbeiten (Spalten a, c) und Details des Logos genau bewahren (Spalten b, e, f, g, i). Die Beispiele zeigen auch einen klaren Unterschied zwischen unserer auf Inpainting basierenden Methode und früheren Arbeiten – unsere Methode verändert nur den Bereich, in dem das Originaltuch
präsentiert. Diese Eigenschaft ermöglicht es uns, die Details der Gliedmaßen (Spalte a, d, f, g, h, j) und anderer Kleidungsstücke (Spalte a, b) besser zu erhalten als die meisten früheren Arbeiten. Einige unserer Ergebnisse (Spalte c, g) zeigen Farbartefakte vom Originalstoff am Rand, weil die Kante der Pose-Map leicht verschoben ist (unvollkommene Segmentierungsmaske). Dies bestätigt, dass unsere Methode auf einer feinkörnigen Segmentierungsmaske beruht, um qualitativ hochwertige Ergebnisse zu erzielen. Einige Paare sind in ihrer Form leicht voneinander abweichend (Spalte d, h). Dies wird mit unserer Methode selten vorkommen, wenn der Testsatz mithilfe der Formeinbettung erstellt wird. Daher versucht unsere Methode nicht, dieses Problem zu beheben.
Zwei Warps sind eindeutig besser als einer (Abbildung 7), wahrscheinlich weil der zweite Warp die Ausrichtung und Details korrigieren kann, die das einzelne Warp-Modell nicht berücksichtigt. Besondere Verbesserungen treten bei aufgeknöpfter/gezippter Oberbekleidung und bei Produktbildern mit Etiketten auf. Diese Verbesserungen lassen sich möglicherweise nicht leicht durch quantitative Auswertung erfassen, da die Unterschiede in den Pixelwerten gering sind.
Wir haben versucht, das geometrische Matching-Modul (mithilfe der TPS-Transformation) zu trainieren, um Verzerrungen in unserem Datensatz zu erzeugen, wie es in früheren Arbeiten häufig verwendet wurde [17,45,11]. Die TPS-Transformation konnte sich jedoch nicht an Partitionen und signifikante Okklusionen anpassen (Beispiele in den Zusatzmaterialien).
Mithilfe einer Benutzerstudie haben wir überprüft, wie häufig Benutzer synthetisierte Bilder identifizieren können. Ein Benutzer wird gefragt, ob ein Bild eines Models, das ein Produkt trägt (das gezeigt wird), echt oder synthetisiert ist. Die Anzeige erfolgt in der höchstmöglichen Auflösung (512 x 512), wie in Abbildung 8.
Wir haben Beispiele verwendet, bei denen die Maske gut ist und die eine faire Darstellung der oberen 20 Perzentilen unserer Ergebnisse liefern. Die Benutzer werden vor der Studie mit zwei echten und zwei gefälschten Paaren vorbereitet. Jeder Teilnehmer wird dann mit 50 Paaren von 25 echten und
25 Fälschungen, ohne Wiederholungsprodukte. Wir testen zwei Benutzerpopulationen (Sehforscher und zufällig ausgewählte Teilnehmer).
Meistens lassen sich Benutzer von unseren Bildern täuschen; die Rate an falsch-positiven Bildern (d. h. synthetisierte Bilder, die von einem Benutzer als echt markiert wurden) ist sehr hoch (Tabelle 3). Abbildung 8 zeigt zwei Beispiele für synthetisierte Bilder, die 70 % der Allgemeinbevölkerung als echt einstufen. Es handelt sich um Beispiele für harte Oberbekleidung mit Regionsaufteilung und komplexer Schattierung. Trotzdem gelang es unserer Methode, eine Synthese von hoher Qualität zu erzeugen. Alle Fragen und vollständigen Ergebnisse der Benutzerstudie finden Sie im Zusatzmaterial.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar .