Autoren:
(1) Kedan Li, Universität von Illinois in Urbana-Champaign;
(2) Min Jin Chong, Universität von Illinois in Urbana-Champaign;
(3) Jingen Liu, JD AI Research;
(4) David Forsyth, Universität von Illinois in Urbana-Champaign.
Unsere Methode besteht aus zwei Komponenten. Ein Shape Matching Net (SMN; Abbildung 2 und 3) lernt eine Einbettung, um formmäßig kompatible Kleidungsstück-Modell-Paare für die Übertragung auszuwählen. Produkt- und Modellbilder werden abgeglichen, indem Produkt- (bzw. Modell-)Bilder gefunden werden, die sich im Einbettungsraum in der Nähe befinden. Ein Multi-Warp Try-on Net (MTN; Abbildung 4) nimmt ein Kleidungsstückbild, ein Modellbild und eine Maske auf, die das zu wechselnde Kleidungsstück am Modell bedeckt, und erzeugt ein realistisches Synthesebild des Modells, das das bereitgestellte Kleidungsstück trägt. Das Netzwerk besteht aus einem Warper und einem Inpainting-Netzwerk, die gemeinsam trainiert werden. Der Warper erzeugt k Warps des Produktbilds, die jeweils auf bestimmte Merkmale spezialisiert sind. Das Inpainting-Netzwerk lernt, Warps zu kombinieren, indem es auswählt, nach welchen Merkmalen in jedem Warp gesucht werden soll. SMN und MTN werden separat trainiert.
Der Einbettungsverlust wird verwendet, um die Merkmalskorrespondenz der beiden Domänen zu erfassen und den in die Netzwerkarchitektur eingebetteten Aufmerksamkeitsmechanismus zu erzwingen. Einzelheiten zur räumlichen Aufmerksamkeitsarchitektur finden Sie in den Zusatzmaterialien.
Wie bei früheren Arbeiten [17,45] besteht auch unser System aus zwei Modulen: (a) einem Warper zum Erstellen mehrerer spezialisierter Warps , indem das Produktbild mit der Maske ausgerichtet wird; (b) einem Inpainting-Modul zum Kombinieren der Warps mit dem maskierten Modell und zum Erstellen des Synthesebilds. Anders als bei früheren Arbeiten [17,45] werden die beiden Module gemeinsam und nicht getrennt trainiert, sodass der Inpainting-Modul den Warper steuert.
Kaskadenverlust: Bei mehreren Warps wird jeder Warp wi trainiert, um die Fehler vorheriger Warps wj zu beheben, wobei j < i ist. Für den k-ten Warp berechnen wir den minimalen Verlust aller vorherigen Warps für jedes Pixel, ausgedrückt als
Der Kaskadenverlust berechnet den durchschnittlichen Verlust für alle Warps. Für die Transformationsparameter wird ein zusätzlicher Regularisierungsterm erzwungen, sodass alle späteren Warps in der Nähe des ersten Warps bleiben.
Der Kaskadenverlust erzwingt eine Hierarchie zwischen allen Warps, sodass es für einen früheren Warp kostspieliger ist, einen Fehler zu machen, als für einen späteren Warp. Dies verhindert mögliche Schwankungen während des Trainings (mehrere Warps konkurrieren um das Optimum). Die Idee ist mit Boosting vergleichbar, aber dennoch anders, da alle Warps einen Gradienten gemeinsam haben, wodurch es früheren Warps möglich ist, sich entsprechend späterer Warps anzupassen.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar .