Autores:
(1) Kedan Li, Universidad de Illinois en Urbana-Champaign;
(2) Min Jin Chong, Universidad de Illinois en Urbana-Champaign;
(3) Jingen Liu, JD Investigación de IA;
(4) David Forsyth, Universidad de Illinois en Urbana-Champaign.
Nuestro método tiene dos componentes. Una red de coincidencia de formas (SMN; Figuras 2 y 3) aprende una incrustación para elegir pares de prendas y modelos compatibles en cuanto a formas para realizar la transferencia. Las imágenes de productos y modelos se relacionan buscando imágenes de productos (o modelos) que estén cerca en el espacio de inserción. Una red de prueba de deformación múltiple (MTN; Figura 4) toma una imagen de prenda, una imagen de modelo y una máscara que cubre la prenda que se va a cambiar en el modelo y genera una imagen de síntesis realista del modelo que lleva la prenda proporcionada. La red consta de un urdidor y una red inpainting, entrenados conjuntamente. El warper produce k deformaciones de la imagen del producto, cada una especializada en determinadas características. La red inpainting aprende a combinar deformaciones eligiendo qué características buscar en cada deformación. SMN y MTN se entrenan por separado.
La pérdida de incrustación se utiliza para capturar la correspondencia de características de los dos dominios y ayudar a aplicar el mecanismo de atención integrado en la arquitectura de la red. Los detalles sobre la arquitectura de atención espacial se encuentran en Materiales complementarios.
Al igual que en trabajos anteriores [17,45], nuestro sistema también consta de dos módulos: (a) un urdidor para crear múltiples deformaciones especializadas , alineando la imagen del producto con la máscara; (b) un módulo de pintura para combinar las deformaciones con el modelo enmascarado y producir la imagen de síntesis. A diferencia del trabajo anterior [17,45], los dos módulos se entrenan de forma conjunta y no por separado, por lo que el pintor interno guía al urdidor.
Pérdida en cascada: con múltiples deformaciones, cada deformación wi está entrenada para abordar los errores cometidos por deformaciones anteriores wj donde j <i. Para la k-ésima deformación, calculamos la pérdida mínima entre todas las deformaciones anteriores en cada píxel, escrita como
La pérdida en cascada calcula la pérdida promedio para todas las deformaciones. Se aplican términos de regularización adicionales en los parámetros de transformación, por lo que todas las deformaciones posteriores permanecen cerca de la primera deformación.
La pérdida en cascada impone una jerarquía entre todas las deformaciones, lo que hace que sea más costoso para una deformación anterior cometer un error que para una deformación posterior. Esto evita posibles oscilaciones durante el entrenamiento (múltiples deformaciones compiten por lo óptimo). La idea es comparable con el impulso, pero diferente porque todas las deformaciones comparten gradiente, lo que hace posible que las deformaciones anteriores se ajusten de acuerdo con las deformaciones posteriores.
Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.