paint-brush
Auf dem Weg zu präzisem, realistischem virtuellem Anprobieren durch Formabgleich: Verwandte Arbeitenvon@polyframe
252 Lesungen

Auf dem Weg zu präzisem, realistischem virtuellem Anprobieren durch Formabgleich: Verwandte Arbeiten

Zu lang; Lesen

Forscher verbessern virtuelle Anprobemethoden, indem sie mithilfe eines neuen Datensatzes Zielmodelle auswählen und spezialisierte Warper trainieren, um so den Realismus und die Genauigkeit zu steigern.
featured image - Auf dem Weg zu präzisem, realistischem virtuellem Anprobieren durch Formabgleich: Verwandte Arbeiten
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

Autoren:

(1) Kedan Li, Universität von Illinois in Urbana-Champaign;

(2) Min Jin Chong, Universität von Illinois in Urbana-Champaign;

(3) Jingen Liu, JD AI Research;

(4) David Forsyth, Universität von Illinois in Urbana-Champaign.

Linktabelle

2. Verwandte Arbeiten

Bildsynthese : Räumliche Transformatornetzwerke schätzen geometrische Transformationen mithilfe neuronaler Netzwerke [23]. Nachfolgende Arbeiten [28,39] zeigen, wie man ein Objekt in ein anderes verzerrt. Das Verzerren kann verwendet werden, um Bilder von starren Objekten [26,30] und nicht-starren Objekten (z. B. Kleidung) [17,12,45] zu erzeugen. Im Gegensatz zu früheren Arbeiten verwenden wir mehrere räumliche Verzerrer.


Unsere Warps müssen zu einem einzigen Bild kombiniert werden, und unser U-Net zur Erzeugung dieses Bildes folgt Trends im Inpainting (Methoden, die fehlende Teile eines Bildes ergänzen, siehe [48,31,50,49]). Han et al. [16,52] zeigen, dass Inpainting-Methoden fehlende Kleidungsstücke bei Personen ergänzen können.


In unserer Arbeit verwenden wir FID∞, um unsere Methode quantitativ zu evaluieren. Dies basiert auf der Frchet Inception Distance (FID) [18], einer gängigen Metrik in der generativen Bildmodellierung [5,54,29]. Chong et al. [9] haben kürzlich gezeigt, dass FID verzerrt ist; durch Extrapolation wird die Verzerrung entfernt und ein unverzerrter Wert (FID∞) ermittelt.


Generierung bekleideter Personen: Zhu et al. [57] verwendeten ein bedingtes GAN, um Bilder basierend auf dem Posenskelett und Textbeschreibungen von Kleidungsstücken zu generieren. SwapNet [38] lernt, Kleidung von Person A auf Person B zu übertragen, indem es Kleidungs- und Posenmerkmale entwirrt. Hsiao et al. [20] lernten ein Modemodellsynthesenetzwerk, das Kodierungen pro Kleidungsstück verwendet, um eine bequeme minimale Bearbeitung bestimmter Artikel zu ermöglichen. Im Gegensatz dazu verzerren wir Produkte auf echte Modellbilder.


Die Formanpassung liegt unserer Methode zugrunde, um Produkt und Modell abzugleichen. Tsiao et al. [19] haben eine Formeinbettung erstellt, um die Anpassung des menschlichen Körpers an gut sitzende Kleidungsstücke zu ermöglichen. Frühere Arbeiten schätzten die Form des menschlichen Körpers [4,27], von Kleidungsstücken [10,25] und beidem [35,40] anhand von 2D-Bildern. Der DensePose-Deskriptor [1] hilft bei der Modellierung der Verformung und Schattierung von Kleidung und wurde daher in neueren Arbeiten übernommen [36,13,47,51,7,52].


Beim virtuellen Anprobieren (VTO) wird ein Produkt einem Modellbild zugeordnet. VITON [17] verwendet ein U-Net, um eine grobe Synthese und eine Maske auf dem Modell zu erzeugen, auf dem das Produkt präsentiert wird. Eine Zuordnung von der Produktmaske zur Maske auf dem Modell wird durch eine Thin Plate Spline (TPS)-Transformation [3] gelernt. Die gelernte Zuordnung wird auf das Produktbild angewendet, um eine Verzerrung zu erzeugen. Im Anschluss an ihre Arbeit verbesserten Wang et al. [45] die Architektur mithilfe eines Geometric Matching Module [39], um die Parameter der TPS-Transformation direkt aus Paaren von Produktbild und Zielperson zu schätzen. Sie trainieren ein separates Verfeinerungsnetzwerk, um die Verzerrung und das Zielbild zu kombinieren. VTNFP [53] erweitert die Arbeit durch die Einbeziehung der Vorhersage von Körpersegmenten und spätere Arbeiten folgen einem ähnlichen Verfahren [37,24,42,22,2]. Die TPS-Transformation kann jedoch aufgrund des Rauschens der in unserem Datensatz generierten Masken keine vernünftigen Verzerrungen erzeugen, wie in Abbildung 6 rechts dargestellt. Stattdessen verwenden wir affine Transformationen, die unserer Erfahrung nach robuster gegenüber Unvollkommenheiten sind als TPS-Transformationen. Eine Gruppe nachfolgender Arbeiten erweiterte die Aufgabe auf mehrere Posen. Warping-GAN [11] kombinierte kontroverses Training mit GMM und generierte Post und Textur separat mithilfe eines zweistufigen Netzwerks. MG-VTON [12] verfeinerte die Generierungsmethode mithilfe eines dreistufigen Generierungsnetzwerks weiter. Andere Arbeiten [21,55,51,7,46] folgten einem ähnlichen Verfahren. Han et al. [15] argumentierten, dass die TPS-Transformation einen geringen Freiheitsgrad aufweist, und schlugen eine flussbasierte Methode zur Erstellung des Warps vor.


Viele vorhandene virtuelle Anprobearbeiten [17,12,21,47,55,53,24,37] werden anhand von Datensätzen ausgewertet, die nur Oberteile enthalten (T-Shirts, Hemden usw.). Wenn nur Oberteile vorhanden sind, verringert sich die Wahrscheinlichkeit einer Formabweichung erheblich, da Oberteile einfache und ähnliche Formen haben. In unserer Arbeit erweitern wir das Problem auf Kleidungsstücke aller Kategorien (T-Shirts, Hemden, Hosen, Shorts, Kleider, Röcke, Roben, Jacken, Mäntel usw.) und schlagen eine Methode zum Anpassen der Formen zwischen dem Quellprodukt und dem Zielmodell vor. Die Auswertung zeigt, dass die Verwendung von Paaren, die in der Form übereinstimmen, die Generierungsqualität sowohl für unsere als auch für frühere Arbeiten erheblich verbessert (Tabelle 4.3).


Darüber hinaus sind echte Studio-Outfits oft von einer offenen/aufgeknöpften Oberbekleidung bedeckt, was in früheren Arbeiten ebenfalls nicht gezeigt wurde [17,12,21,47,55,53,37]. Dies kann zu einer Teilung oder starken Okklusion des Kleidungsstücks führen und wurde in früheren Arbeiten nicht berücksichtigt, wie in Abbildung 6 gezeigt. Wir zeigen, dass unser Modul zur Generierung mehrerer Warps diese Schwierigkeiten lindert.


Abb. 2. Es ist schwierig, beispielsweise ein langärmeliges Hemd auf ein Modell zu übertragen, das ein T-Shirt trägt. Unser Verfahren ermittelt kompatible Paare in zwei Schritten. Zuerst berechnen wir eine Einbettung des Kleidungsaussehens mithilfe eines visuellen Kleidungsstück-Encoders, der mithilfe von Produkt-Modell-Paaren und räumlicher Aufmerksamkeit trainiert wurde. Dann berechnet ein Form-Encoder die Form-Einbettung aus der Einbettung des Kleidungsaussehens. Die Form-Einbettung wird mithilfe der Produktkontur als Maßeinheit gelernt, die nur Forminformationen beibehält. Beim Übertragen wählen wir ein Modell aus, das ein kompatibles Kleidungsstück trägt, indem wir im Form-Einbettungsraum suchen.