Autores:
(1) Kedan Li, Universidade de Illinois em Urbana-Champaign;
(2) Min Jin Chong, Universidade de Illinois em Urbana-Champaign;
(3) Jingen Liu, JD AI Research;
(4) David Forsyth, Universidade de Illinois em Urbana-Champaign.
Síntese de imagens : Redes de transformadores espaciais estimam transformações geométricas usando redes neurais [23]. O trabalho subsequente [28,39] mostra como distorcer um objeto em outro. Warping pode ser usado para produzir imagens de objetos rígidos [26,30] e objetos não rígidos (por exemplo, roupas) [17,12,45]. Em contraste com o trabalho anterior, usamos vários warpers espaciais.
Nossas deformações devem ser combinadas em uma única imagem, e nossa U-Net para produzir esta imagem segue tendências de pintura interna (métodos que preenchem partes faltantes de uma imagem, consulte [48,31,50,49]). Han et al. [16,52] mostram que métodos de pintura podem completar peças de roupa perdidas nas pessoas.
Em nosso trabalho, utilizamos FID∞ para avaliar quantitativamente nosso método. Isto é baseado na Distância de Iniciação de Frchet (FID) [18], uma métrica comum na modelagem de imagens generativas [5,54,29]. Chong et al. [9] mostraram recentemente que o FID é tendencioso; a extrapolação remove o viés, para uma pontuação imparcial (FID∞).
Gerando pessoas vestidas: Zhu et al. [57] usaram um GAN condicional para gerar imagens baseadas em poses de esqueleto e descrições de texto de roupas. SwapNet [38] aprende a transferir roupas da pessoa A para a pessoa B, desembaraçando as roupas e as características da pose. Hsiao et al. [20] aprenderam uma rede de síntese de modelos de moda usando codificações por peça de roupa para permitir a edição mínima conveniente de itens específicos. Em contraste, distorcemos os produtos em imagens de modelos reais.
A correspondência de formas é a base do nosso método para combinar o produto com o modelo. Tsiao et al. [19] construíram uma incorporação de forma para permitir a correspondência entre o corpo humano e peças de roupa bem ajustadas. Trabalhos anteriores estimaram a forma do corpo humano [4,27], peças de vestuário [10,25] e ambos [35,40], através de imagens 2D. O descritor DensePose [1] auxilia na modelagem da deformação e sombreamento do tecido e, portanto, foi adotado em trabalhos recentes [36,13,47,51,7,52].
O teste virtual (VTO) mapeia um produto para uma imagem de modelo. VITON [17] utiliza uma U-Net para gerar uma síntese grosseira e uma máscara no modelo onde o produto é apresentado. Um mapeamento da máscara do produto para a máscara do modelo é aprendido por meio da transformação Thin plate spline (TPS) [3]. O mapeamento aprendido é aplicado na imagem do produto para criar uma distorção. Seguindo seu trabalho, Wang et al. [45] melhoraram a arquitetura usando um Módulo de Correspondência Geométrica [39] para estimar os parâmetros de transformações TPS diretamente a partir de pares de imagem do produto e pessoa alvo. Eles treinam uma rede de refinamento separada para combinar a distorção e a imagem alvo. VTNFP [53] estende o trabalho incorporando a previsão de segmentos corporais e trabalhos posteriores seguem procedimento semelhante [37,24,42,22,2]. No entanto, a transformação TPS não produz distorções razoáveis, devido ao ruído das máscaras geradas em nosso conjunto de dados, conforme mostrado na Figura 6 à direita. Em vez disso, adotamos transformações afins que consideramos mais robustas às imperfeições do que a transformação TPS. Um grupo de trabalhos seguintes estendeu a tarefa para múltiplas poses. Warping-GAN [11] combinou treinamento adversário com GMM e gerou pós e textura separadamente usando uma rede de dois estágios. MG-VTON [12] refina ainda mais o método de geração usando uma rede de geração de três estágios. Outros trabalhos [21,55,51,7,46] seguiram procedimento semelhante. Han et al. [15] argumentaram que a transformação TPS tem baixo grau de liberdade e propuseram um método baseado em fluxo para criar a urdidura.
Muitos trabalhos de experimentação virtual existentes [17,12,21,47,55,53,24,37] são avaliados em conjuntos de dados que possuem apenas tops (camiseta, camisa, etc.). Ter apenas topos reduz em grande parte a probabilidade de incompatibilidade de formato, pois os topos têm formatos simples e semelhantes. Em nosso trabalho, estendemos o problema para incluir itens de vestuário de todas as categorias (camiseta, camisa, calça, shorts, vestido, saia, robe, jaqueta, casaco, etc.) e propomos um método para combinar o formato entre o produto de origem e o modelo alvo. A avaliação mostra que o uso de pares que combinam em forma aumenta significativamente a qualidade da geração tanto para o nosso trabalho como para o anterior (tabela 4.3).
Além disso, os trajes reais de estúdio são muitas vezes cobertos por um agasalho aberto/desabotoado, o que também não é apresentado em trabalhos anteriores [17,12,21,47,55,53,37]. Isto pode causar partição ou oclusão severa na peça de vestuário e não é abordado por trabalhos anteriores, como mostrado na Figura 6. Mostramos que o nosso módulo de geração de múltiplas distorções melhora essas dificuldades.
Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.