paint-brush
Auf dem Weg zur präzisen, realistischen virtuellen Anprobe durch Formabgleich: Experimentevon@polyframe
183 Lesungen

Auf dem Weg zur präzisen, realistischen virtuellen Anprobe durch Formabgleich: Experimente

Zu lang; Lesen

Forscher verbessern virtuelle Anprobemethoden, indem sie mithilfe eines neuen Datensatzes Zielmodelle auswählen und spezialisierte Warper trainieren, um so den Realismus und die Genauigkeit zu steigern.
featured image - Auf dem Weg zur präzisen, realistischen virtuellen Anprobe durch Formabgleich: Experimente
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

Autoren:

(1) Kedan Li, Universität von Illinois in Urbana-Champaign;

(2) Min Jin Chong, Universität von Illinois in Urbana-Champaign;

(3) Jingen Liu, JD AI Research;

(4) David Forsyth, Universität von Illinois in Urbana-Champaign.

Linktabelle

4. Experimente

4.1 Datensätze

Der VITON-Datensatz [17] enthält Paare von Produktbildern (Frontansicht, flach liegend, weißer Hintergrund) und Studiobildern, 2D-Pose-Maps und Pose-Keypoints. Er wurde in vielen Arbeiten [45,11,15,53,24,22,2,37] verwendet. Einige Arbeiten [47,15,13,51] zum Thema Multi-Pose-Matching verwendeten DeepFashion [33] oder MVC [32] und andere selbst gesammelte Datensätze [12,21,47,55]. Diese Datensätze enthalten dasselbe Produkt, das von mehreren Personen getragen wird, verfügen jedoch über kein Produktbild und sind daher für unsere Aufgabe nicht geeignet.


Der VITON-Datensatz enthält nur Oberteile. Dies verzerrt wahrscheinlich die Leistung, weil (zum Beispiel) Hosen anders fallen als Oberteile; manche Kleidungsstücke (Bademäntel, Jacken usw.) oft geöffnet sind, was zu Verformungen führt; der Fall von Röcken sehr variabel ist und von Details wie Falten, Ausrichtung der Stoffmaserung usw. abhängt. Um diese realen Probleme hervorzuheben, haben wir durch Web Scraping von E-Commerce-Websites für Mode einen neuen Datensatz mit 422.756 Modeprodukten erhoben. Jedes Produkt enthält ein Produktbild (Vorderansicht, flach liegend, weißer Hintergrund), ein Modellbild (einzelne Person, meist Frontansicht) und andere Metadaten. Wir verwenden alle Kategorien außer Schuhen und Accessoires und gruppieren sie in vier Typen (Oberteile, Unterteile, Oberbekleidung oder Ganzkörper). Typdetails erscheinen in den ergänzenden Materialien.


Wir haben die Daten zufällig aufgeteilt, und zwar in 80 % für das Training und 20 % für das Testen. Da der Datensatz keine Segmentierungsannotation enthält, verwenden wir Deeplab v3 [6], das auf dem ModaNet-Datensatz [56] vortrainiert wurde, um die Segmentierungsmasken für die Modellbilder zu erhalten. Ein großer Teil der Segmentierungsmasken ist verrauscht, was den Schwierigkeitsgrad weiter erhöht (siehe Zusatzmaterialien).

4.2 Trainingsprozess

Wir trainieren unser Modell anhand unseres neu gesammelten Datensatzes und des VITON-Datensatzes [17], um den Vergleich mit früheren Arbeiten zu erleichtern. Wenn wir unsere Methode anhand des VITON-Datensatzes trainieren, extrahieren wir nur den Teil der 2D-Pose-Map, der dem Produkt entspricht, um die Segmentierungsmaske zu erhalten, und verwerfen den Rest. Die Einzelheiten des Trainingsverfahrens finden Sie in den Zusatzmaterialien.


Wir haben auch versucht, frühere Arbeiten mit unserem Datensatz zu trainieren. Frühere Arbeiten [45,17,11,15,53,24,22,13,47,51,7,37] erfordern jedoch Pose-Estimation-Annotationen, die in unserem Datensatz nicht verfügbar sind. Daher vergleichen wir nur mit früheren Arbeiten mit dem VITON-Datensatz.

4.3 Quantitative Auswertung

Ein quantitativer Vergleich mit dem Stand der Technik ist schwierig. Die Angabe des FID in anderen Arbeiten ist sinnlos, da der Wert verzerrt ist und die Verzerrung von den Parametern des verwendeten Netzwerks abhängt [9,37]. Wir verwenden den FID∞-Score, der unverzerrt ist. Für die meisten anderen Methoden können wir den FID∞ nicht berechnen, da die Ergebnisse nicht veröffentlicht wurden; tatsächlich gibt es für neuere Methoden (z. B. [15,53,24,24,42,22,2]) keine veröffentlichte Implementierung. CP-VTON [45] hat eine solche Implementierung, und wir verwenden dies als Vergleichspunkt.


Abb. 5. Die Abbildung vergleicht den L1-Verlust und den Wahrnehmungsverlust (vorab trainiertes VGG19) im Testset über 200 Trainingsepochen, aufgezeichnet alle 5 Epochen. k=2 hat insgesamt den niedrigsten Fehler. Die Verwendung eines großen k beschleunigt das Training im Frühstadium, führt aber später zu einer Überanpassung.


Die meisten Auswertungen sind qualitativ, und andere [24,37] haben den FID-Score auch auf dem ursprünglichen Testsatz von VITON berechnet, der aus nur 2.032 synthetisierten Paaren besteht. Wegen des kleinen Datensatzes ist dieser FID-Score nicht aussagekräftig. Die aus der Berechnung entstehende Varianz wird hoch sein, was zu einer großen Verzerrung des FID-Scores führt und ihn ungenau macht. Um einen genauen Vergleich zu gewährleisten, haben wir durch zufälliges Matching einen größeren Testsatz aus 50.000 synthetisierten Paaren erstellt, wobei wir dem Verfahren der ursprünglichen Arbeit [17] folgten. Wir haben neue Testsätze mithilfe unseres Formmatching-Modells erstellt, indem wir für jedes Element des ursprünglichen Testsatzes die 25 nächsten Nachbarn im Formeinbettungsraum ausgewählt haben. Wir erstellen zwei Datensätze mit jeweils 50.000 Paaren und verwenden Farbbilder und Graustufenbilder, um die Formeinbettung zu berechnen. Die Graustufenablation gibt Aufschluss darüber, ob die Formeinbettung Farbmerkmale berücksichtigt.


Die Anzahl der Warps wird durch Berechnung des L1-Fehlers und des Wahrnehmungsfehlers (mit VGG19, vorab auf ImageNet trainiert) unter Verwendung von Warpern mit unterschiedlichem k im Testset unseres Datensatzes gewählt. Hier wird der Warper ausgewertet, indem ein Produkt einem Modell zugeordnet wird, das dieses Produkt trägt. Wie in Abbildung 5 gezeigt, übertrifft k = 2 durchweg die Leistung von k = 1. Mehr als zwei Warps verringern jedoch auch die Leistung bei der aktuellen Trainingskonfiguration, möglicherweise aufgrund von Überanpassung.


Wir wählen β, indem wir ein einzelnes Warp-Modell mit unterschiedlichen β-Werten trainieren und dabei 10 % des Datensatzes verwenden und es dann im Test auswerten. Tabelle 1 zeigt, dass ein zu großes oder zu kleines β die Leistung mindert. β = 3 ist am besten und wird daher übernommen. Qualitative Vergleiche sind in ergänzenden Materialien verfügbar.



Mit diesen Daten können wir CP-VTON vergleichen, unsere Methode mit einem einzelnen Warp (k = 1) und zwei Warps (k = 2) und zwei gemischten Warps. Das gemischte Modell berücksichtigt den Durchschnitt von zwei Warps anstelle der Verkettung. Die Ergebnisse erscheinen in Tabelle 4.3. Wir finden:


– bei allen Methoden führt die Wahl des Modells zu besseren Ergebnissen;


– es gibt kaum eine Auswahl zwischen Farb- und Graustufenabstimmung, die Abstimmung erfolgt daher hauptsächlich nach der Form des Kleidungsstücks;


– zwei Zettel zu haben ist besser als einen;


– die Kombination mit einem U-Net ist viel besser als das Mischen.


Wir glauben, dass die quantitativen Ergebnisse die Verbesserung durch den Einsatz von mehr Schärmaschinen unterschätzen, da die quantitative Messung relativ grob ist. Qualitative Beweise stützen diese Annahme (Abbildung 7).

4.4 Qualitative Ergebnisse

Wir haben sorgfältig nach passenden Beispielen in [15,24,53,37] gesucht, um qualitative Vergleiche anzustellen. Ein Vergleich mit MG-VTON [12] ist nicht anwendbar, da die Arbeit kein qualitatives Beispiel mit fester Pose enthielt. Beachten Sie, dass der Vergleich frühere Arbeiten begünstigt, da unser Modell nur mit der Region trainiert und getestet wird, die dem Kleidungsstück in der 2D-Pose-Map entspricht, während frühere Arbeiten die vollständige 2D-Pose-Map und Key-Point-Pose-Annotationen verwenden.


Generell ist die Übertragung von Kleidungsstücken schwierig, aber moderne Methoden scheitern heute vor allem an Details. Das bedeutet, dass die Bewertung der Übertragung eine sorgfältige Beachtung der Details erfordert. Abbildung 6 zeigt einige Vergleiche. Insbesondere die Beachtung der Bilddetails an Rändern, Texturen und Kleidungsstückdetails offenbart einige der Schwierigkeiten dieser Aufgabe. Wie in Abbildung 6 links gezeigt, kann unsere Methode komplizierte Texturen robust verarbeiten (Spalten a, c) und Details des Logos genau bewahren (Spalten b, e, f, g, i). Die Beispiele zeigen auch einen klaren Unterschied zwischen unserer auf Inpainting basierenden Methode und früheren Arbeiten – unsere Methode verändert nur den Bereich, in dem das Originaltuch


Tabelle 2. Diese Tabelle vergleicht den FID∞-Score (je kleiner, desto besser) zwischen verschiedenen Bildsynthesemethoden bei zufälligen Paaren und passenden Paaren unter Verwendung unseres Shape-Embedding-Netzwerks. Alle Werte in Spalte 1 sind deutlich höher als die in Spalte 2 und 3, was zeigt, dass die Wahl eines kompatiblen Paares die Leistung unserer Methoden und von CP-VTON deutlich verbessert. Wir glauben, dass diese Verbesserung auch auf andere Methoden zutrifft, aber andere haben keinen Code veröffentlicht. Über alle Methoden hinweg übertrifft unsere Methode mit zwei Warpern frühere Arbeiten bei allen Testsätzen deutlich. Es gibt nicht viel Auswahl zwischen Farb- und Graustufen-Matchern, was darauf hindeutet, dass sich der Matching-Prozess auf die Form des Kleidungsstücks konzentriert (wie er trainiert wurde). Die Verwendung von zwei Warps (k = 2) zeigt eine leichte Verbesserung gegenüber der Verwendung eines einzelnen Warps (k = 1), da die Verbesserungen für quantitative Metriken schwer zu erfassen sind. Der Unterschied ist in qualitativen Beispielen deutlicher sichtbar (Abbildung 7). Es ist wichtig, ein U-Net zu verwenden, um Warps zu kombinieren; bloßes Mischen führt zu schlechten Ergebnissen (letzte Zeile).


Abb. 6. Vergleiche mit CP VTON, ClothFlow, VTNFP und SieveNet auf dem VITON-Datensatz unter Verwendung von für diese Methoden veröffentlichten Bildern. Jeder Block zeigt einen anderen Datensatz. Unsere Ergebnisse stehen in Zeile 2 und die Ergebnisse der Vergleichsmethoden in Zeile 3. Beachten Sie CP-VTON im Vergleich zu unserer Methode: Verdecken von Halsausschnitten (b); Aliasing-Streifen (c); Neuskalierung von Übertragungen (b); Verschmieren der Textur und Verwischen von Grenzen (a); und Verwischen von Übertragungen (b). Beachten Sie GarmentGAN im Vergleich zu unserer Methode: Verstummen der Gliedmaßengrenzen (d); Kontrastverlust bei Blumen an der Taille (d); und starkes Aliasing bei einer Übertragung (e). Beachten Sie ClothFlow im Vergleich zu unserer Methode: KEINE Aliasing-Streifen (f); Verwischen der Hände (f, g); Verwischen der Anatomie (Schlüsselbein und Halssehnen, g); Neuskalierung einer Übertragung (g). Beachten Sie VTNFP im Vergleich zu unserer Methode: Falsche Platzierung von Texturdetails (Blüten an Halsausschnitt und Schulter, h); Verstümmelte Transfers (i). Beachten Sie SieveNet im Vergleich zu unserer Methode: verschwimmende Umrisse (j, k); falsch platzierte Manschetten (k); verstümmelte Schattierung (Arm auf k). Am besten in Farbe und hoher Auflösung betrachten.


präsentiert. Diese Eigenschaft ermöglicht es uns, die Details der Gliedmaßen (Spalte a, d, f, g, h, j) und anderer Kleidungsstücke (Spalte a, b) besser zu erhalten als die meisten früheren Arbeiten. Einige unserer Ergebnisse (Spalte c, g) zeigen Farbartefakte vom Originalstoff am Rand, weil die Kante der Pose-Map leicht verschoben ist (unvollkommene Segmentierungsmaske). Dies bestätigt, dass unsere Methode auf einer feinkörnigen Segmentierungsmaske beruht, um qualitativ hochwertige Ergebnisse zu erzielen. Einige Paare sind in ihrer Form leicht voneinander abweichend (Spalte d, h). Dies wird mit unserer Methode selten vorkommen, wenn der Testsatz mithilfe der Formeinbettung erstellt wird. Daher versucht unsere Methode nicht, dieses Problem zu beheben.


Zwei Warps sind eindeutig besser als einer (Abbildung 7), wahrscheinlich weil der zweite Warp die Ausrichtung und Details korrigieren kann, die das einzelne Warp-Modell nicht berücksichtigt. Besondere Verbesserungen treten bei aufgeknöpfter/gezippter Oberbekleidung und bei Produktbildern mit Etiketten auf. Diese Verbesserungen lassen sich möglicherweise nicht leicht durch quantitative Auswertung erfassen, da die Unterschiede in den Pixelwerten gering sind.


Abb. 7. Die Abbildungen zeigen einen qualitativen Vergleich zwischen k = 2 und k = 1. Hinweis: Die Knöpfe an der falschen Stelle für einen einzelnen Kettfaden links, behoben für k = 2; eine falsch skalierte Tasche und Probleme mit den Ärmelrändern für den einzelnen Kettfaden links in der Mitte, behoben für k = 2; ein stark falsch platzierter Knopf und eine umliegende Beule in der Mitte, behoben für k = 2; ein falsch platziertes Kleidungsetikett rechts in der Mitte, behoben für k = 2; ein weiteres falsch platziertes Kleidungsetikett rechts, behoben für k = 2.


Wir haben versucht, das geometrische Matching-Modul (mithilfe der TPS-Transformation) zu trainieren, um Verzerrungen in unserem Datensatz zu erzeugen, wie es in früheren Arbeiten häufig verwendet wurde [17,45,11]. Die TPS-Transformation konnte sich jedoch nicht an Partitionen und signifikante Okklusionen anpassen (Beispiele in den Zusatzmaterialien).

4.5 Benutzerstudie

Mithilfe einer Benutzerstudie haben wir überprüft, wie häufig Benutzer synthetisierte Bilder identifizieren können. Ein Benutzer wird gefragt, ob ein Bild eines Models, das ein Produkt trägt (das gezeigt wird), echt oder synthetisiert ist. Die Anzeige erfolgt in der höchstmöglichen Auflösung (512 x 512), wie in Abbildung 8.


Wir haben Beispiele verwendet, bei denen die Maske gut ist und die eine faire Darstellung der oberen 20 Perzentilen unserer Ergebnisse liefern. Die Benutzer werden vor der Studie mit zwei echten und zwei gefälschten Paaren vorbereitet. Jeder Teilnehmer wird dann mit 50 Paaren von 25 echten und


Abb. 8. Zwei synthetisierte Bilder, die 70 % der Teilnehmer der Benutzerstudie für echt hielten. Beachten Sie beispielsweise die Schattierungen, die Falten, sogar den Reißverschluss und den Kragen.


Tabelle 3. Die Ergebnisse der Benutzerstudie zeigen, dass die Teilnehmer große Schwierigkeiten haben, zwischen echten und künstlichen Bildern zu unterscheiden. 51,6 % bzw. 61,5 % der gefälschten Bilder werden von der Menge und den Forschern für echt gehalten. Gelegentlich werden auch einige der echten Bilder für gefälscht gehalten, was darauf hindeutet, dass die Teilnehmer aufmerksam waren.


25 Fälschungen, ohne Wiederholungsprodukte. Wir testen zwei Benutzerpopulationen (Sehforscher und zufällig ausgewählte Teilnehmer).


Meistens lassen sich Benutzer von unseren Bildern täuschen; die Rate an falsch-positiven Bildern (d. h. synthetisierte Bilder, die von einem Benutzer als echt markiert wurden) ist sehr hoch (Tabelle 3). Abbildung 8 zeigt zwei Beispiele für synthetisierte Bilder, die 70 % der Allgemeinbevölkerung als echt einstufen. Es handelt sich um Beispiele für harte Oberbekleidung mit Regionsaufteilung und komplexer Schattierung. Trotzdem gelang es unserer Methode, eine Synthese von hoher Qualität zu erzeugen. Alle Fragen und vollständigen Ergebnisse der Benutzerstudie finden Sie im Zusatzmaterial.