paint-brush
Auf dem Weg zur präzisen, realistischen virtuellen Anprobe durch Formabgleich: Vorgeschlagene Methodeby@polyframe
134

Auf dem Weg zur präzisen, realistischen virtuellen Anprobe durch Formabgleich: Vorgeschlagene Methode

Forscher verbessern virtuelle Anprobemethoden, indem sie mithilfe eines neuen Datensatzes Zielmodelle auswählen und spezialisierte Warper trainieren, um so den Realismus und die Genauigkeit zu steigern.
featured image - Auf dem Weg zur präzisen, realistischen virtuellen Anprobe durch Formabgleich: Vorgeschlagene Methode
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

Autoren:

(1) Kedan Li, Universität von Illinois in Urbana-Champaign;

(2) Min Jin Chong, Universität von Illinois in Urbana-Champaign;

(3) Jingen Liu, JD AI Research;

(4) David Forsyth, Universität von Illinois in Urbana-Champaign.

Linktabelle

3. Vorgeschlagene Methode

Unsere Methode besteht aus zwei Komponenten. Ein Shape Matching Net (SMN; Abbildung 2 und 3) lernt eine Einbettung, um formmäßig kompatible Kleidungsstück-Modell-Paare für die Übertragung auszuwählen. Produkt- und Modellbilder werden abgeglichen, indem Produkt- (bzw. Modell-)Bilder gefunden werden, die sich im Einbettungsraum in der Nähe befinden. Ein Multi-Warp Try-on Net (MTN; Abbildung 4) nimmt ein Kleidungsstückbild, ein Modellbild und eine Maske auf, die das zu wechselnde Kleidungsstück am Modell bedeckt, und erzeugt ein realistisches Synthesebild des Modells, das das bereitgestellte Kleidungsstück trägt. Das Netzwerk besteht aus einem Warper und einem Inpainting-Netzwerk, die gemeinsam trainiert werden. Der Warper erzeugt k Warps des Produktbilds, die jeweils auf bestimmte Merkmale spezialisiert sind. Das Inpainting-Netzwerk lernt, Warps zu kombinieren, indem es auswählt, nach welchen Merkmalen in jedem Warp gesucht werden soll. SMN und MTN werden separat trainiert.


3.1 Formanpassungsnetz



Der Einbettungsverlust wird verwendet, um die Merkmalskorrespondenz der beiden Domänen zu erfassen und den in die Netzwerkarchitektur eingebetteten Aufmerksamkeitsmechanismus zu erzwingen. Einzelheiten zur räumlichen Aufmerksamkeitsarchitektur finden Sie in den Zusatzmaterialien.


3.2 Mehrkettiges Anprobenetz


Wie bei früheren Arbeiten [17,45] besteht auch unser System aus zwei Modulen: (a) einem Warper zum Erstellen mehrerer spezialisierter Warps , indem das Produktbild mit der Maske ausgerichtet wird; (b) einem Inpainting-Modul zum Kombinieren der Warps mit dem maskierten Modell und zum Erstellen des Synthesebilds. Anders als bei früheren Arbeiten [17,45] werden die beiden Module gemeinsam und nicht getrennt trainiert, sodass der Inpainting-Modul den Warper steuert.





Kaskadenverlust: Bei mehreren Warps wird jeder Warp wi trainiert, um die Fehler vorheriger Warps wj zu beheben, wobei j < i ist. Für den k-ten Warp berechnen wir den minimalen Verlust aller vorherigen Warps für jedes Pixel, ausgedrückt als



Der Kaskadenverlust berechnet den durchschnittlichen Verlust für alle Warps. Für die Transformationsparameter wird ein zusätzlicher Regularisierungsterm erzwungen, sodass alle späteren Warps in der Nähe des ersten Warps bleiben.



Der Kaskadenverlust erzwingt eine Hierarchie zwischen allen Warps, sodass es für einen früheren Warp kostspieliger ist, einen Fehler zu machen, als für einen späteren Warp. Dies verhindert mögliche Schwankungen während des Trainings (mehrere Warps konkurrieren um das Optimum). Die Idee ist mit Boosting vergleichbar, aber dennoch anders, da alle Warps einen Gradienten gemeinsam haben, wodurch es früheren Warps möglich ist, sich entsprechend späterer Warps anzupassen.