paint-brush
Hacia una prueba virtual precisa y realista mediante la combinación de formas: resumen e introducciónpor@polyframe
282 lecturas

Hacia una prueba virtual precisa y realista mediante la combinación de formas: resumen e introducción

Demasiado Largo; Para Leer

Los investigadores mejoran los métodos de prueba virtual mediante el uso de un nuevo conjunto de datos para elegir modelos de destino y entrenar warpers especializados, mejorando el realismo y la precisión.
featured image - Hacia una prueba virtual precisa y realista mediante la combinación de formas: resumen e introducción
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

Autores:

(1) Kedan Li, Universidad de Illinois en Urbana-Champaign;

(2) Min Jin Chong, Universidad de Illinois en Urbana-Champaign;

(3) Jingen Liu, JD Investigación de IA;

(4) David Forsyth, Universidad de Illinois en Urbana-Champaign.

Tabla de enlaces

Abstracto

Un método de prueba virtual toma una imagen del producto y una imagen de un modelo y produce una imagen del modelo que lleva el producto. Básicamente, la mayoría de los métodos calculan las deformaciones desde la imagen del producto a la imagen del modelo y las combinan mediante métodos de generación de imágenes. Sin embargo, obtener una imagen realista es un desafío porque la cinemática de las prendas es compleja y porque las señales de contorno, textura y sombreado en la imagen revelan errores a los espectadores humanos. La prenda debe tener cortinas adecuadas; la textura debe deformarse para que sea coherente con la forma de una prenda drapeada; los pequeños detalles (botones, cuellos, solapas, bolsillos, etc.) deben estar colocados adecuadamente en la prenda, etc. La evaluación es particularmente difícil y suele ser cualitativa.


Este artículo utiliza una evaluación cuantitativa en un conjunto de datos novedoso y desafiante para demostrar que (a) para cualquier método de deformación, se pueden elegir modelos objetivo automáticamente para mejorar los resultados, y (b) aprender múltiples deformaciones especializadas coordinadas ofrece mejoras adicionales en los resultados. Los modelos de destino se eligen mediante un procedimiento de incrustación aprendido que predice una representación de los productos que lleva el modelo. Esta predicción se utiliza para hacer coincidir productos con modelos. Los urdidores especializados se entrenan mediante un método que anima a un segundo urdidor a desempeñarse bien en lugares donde el primero funciona mal. Luego, las deformaciones se combinan utilizando una U-Net. La evaluación cualitativa confirma que estas mejoras afectan al contorno, el tono de la textura y los detalles de la prenda.


Palabras clave: Moda, Prueba virtual, Generación de imágenes, Deformación de imágenes

1. Introducción

El comercio electrónico significa no poder probarse un producto, lo que resulta difícil para los consumidores de moda [44]. Actualmente, los sitios web publican rutinariamente sesiones de fotos de modelos usando productos, pero el volumen y la facturación significan que hacerlo es muy costoso y requiere mucho tiempo [34]. Existe la necesidad de generar imágenes realistas y precisas de modelos con diferentes conjuntos de ropa. Se podrían utilizar modelos 3D de postura [8,14]. La alternativa (sintetizar imágenes de modelos de productos sin mediciones 3D [17,45,39,11,15]) se conoce como prueba virtual. Estos métodos suelen constar de dos componentes: 1) un transformador espacial para deformar el producto


Fig. 1. Traducir un producto a un modelo mal elegido genera dificultades (modelo aleatorio; observe cómo la chaqueta está aplastada a la izquierda y la camiseta estirada a la derecha). Nuestro método puede elegir un buen modelo objetivo para un producto determinado, lo que lleva a una mejora cualitativa y cuantitativa significativa en las transferencias (modelo elegido). Además, entrenamos a múltiples urdidores para que actúen de manera coordinada, lo que mejora aún más los resultados de la generación (mejorado; los ojales de la chaqueta están en el lugar correcto a la izquierda y la fila de botones del cárdigan es plausible a la derecha). La figura muestra que (a) elegir cuidadosamente el modelo a deformar y (b) usar múltiples urdidores especializados mejoran significativamente la transferencia. Los resultados cuantitativos del cuadro 4.3 respaldan firmemente los dos puntos planteados.


imagen utilizando alguna estimación de la pose del modelo y 2) una red de generación de imágenes que combina el producto deformado y poco alineado con la imagen del modelo para producir una imagen realista del modelo que lleva el producto.


Es mucho más fácil de transferir con prendas sencillas como camisetas, que se destacan en la literatura. Las prendas generales (a diferencia de las camisetas) pueden abrirse por delante; tener cortinas sofisticadas; tienen estructuras conformadas como cuellos y puños; tener botones; etcétera. Estos efectos desafían gravemente los métodos existentes (ejemplos en Materiales complementarios). La deformación mejora significativamente si se utiliza la imagen del producto para elegir una imagen de modelo que se adapte a esa prenda (Figura 1).


Al menos en parte, esto es el resultado de cómo se entrenan las redes de generación de imágenes. Entrenamos usando imágenes emparejadas: un producto y un modelo usando un producto [17,45,53]. Esto significa que la red de generación siempre espera que la imagen objetivo sea apropiada para el producto (por lo que no está entrenada para, por ejemplo, ponerle un suéter a una modelo que lleva un vestido, Figura 1). Una alternativa es utilizar entrenamiento adversario [11,12,38,13,37]; pero es difícil preservar detalles específicos del producto (por ejemplo, un estilo particular de botones; una calcomanía en una camiseta) en este marco. Para abordar esta dificultad, aprendemos un espacio de integración para elegir pares de producto-modelo que darán como resultado transferencias de alta calidad (Figura 2). La incrustación aprende a predecir qué forma tomaría una prenda en una imagen de modelo si estuviera en una imagen de producto. Luego, los productos se combinan con modelos que usan prendas de formas similares. Debido a que los modelos suelen usar muchas prendas, utilizamos un codificador visual de atención espacial para analizar cada categoría (arriba, abajo, ropa exterior, todo el cuerpo, etc.) de prenda e incrustar cada una por separado.


Otro problema surge cuando una prenda está abierta (por ejemplo, un abrigo desabrochado). En este caso, el objetivo de la deformación podría tener más de un componente conectado. Los warpers tienden a reaccionar ajustando bien una región y mal la otra, lo que resulta en detalles desalineados (los botones de la Figura 1). Estos errores pueden contribuir poco a la pérdida de formación, pero son muy evidentes y los usuarios reales los consideran problemas graves. Mostramos que el uso de múltiples deformaciones especializadas coordinadas produce mejoras cuantitativas y cualitativas sustanciales en la deformación. Nuestro warper produce múltiples warps, entrenados para coordinarse entre sí. Una red inpainting combina las deformaciones y el modelo enmascarado, y crea una imagen sintetizada. La red inpainting esencialmente aprende a elegir entre las deformaciones, al mismo tiempo que proporciona orientación al urdidor, ya que se entrenan conjuntamente. La evaluación cualitativa confirma que una parte importante de la mejora resulta de mejores predicciones de botones, bolsillos, etiquetas y similares.


Mostramos evaluaciones cuantitativas a gran escala de pruebas virtuales. Recopilamos un nuevo conjunto de datos de 422,756 pares de imágenes de productos y fotografías de estudio mediante la extracción de sitios de comercio electrónico de moda. El conjunto de datos contiene varias categorías de productos. Lo comparamos con trabajos anteriores sobre el conjunto de datos VITON establecido [17] tanto cuantitativa como cualitativamente. El resultado cuantitativo muestra que elegir los pares de modelos de producto utilizando nuestra incrustación de formas produce mejoras significativas para todos los procesos de generación de imágenes (tabla 4.3). El uso de deformaciones múltiples también supera consistentemente la línea base de deformación única, como se demuestra a través de resultados tanto cuantitativos (tabla 4.3, figura 5) como cualitativos (figura 7). La comparación cualitativa con trabajos anteriores muestra que nuestro sistema conserva los detalles tanto de la prenda a cambiar como del modelo objetivo con mayor precisión que el trabajo anterior. Realizamos un estudio de usuario que simula el costo del comercio electrónico para reemplazar el modelo real con un modelo sintetizado. El resultado muestra que el 40% de nuestro modelo sintetizado se considera modelos reales.


Como resumen de nuestras aportaciones:


– introducimos un procedimiento de comparación que da como resultado mejoras cualitativas y cuantitativas significativas en la prueba virtual, independientemente del urdidor que se utilice.


– presentamos un modelo de deformación que aprende múltiples deformaciones coordinadas y supera consistentemente las líneas de base en todos los conjuntos de prueba.

– Nuestros resultados generados preservan los detalles de manera precisa y realista como para hacer que los compradores piensen que algunas de las imágenes sintetizadas son reales.


Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.