paint-brush
Rumo a um teste virtual preciso e realista por meio da correspondência de formas: trabalho relacionadopor@polyframe
265 leituras

Rumo a um teste virtual preciso e realista por meio da correspondência de formas: trabalho relacionado

Muito longo; Para ler

Os pesquisadores melhoram os métodos de teste virtual usando um novo conjunto de dados para escolher modelos de alvo e treinar warpers especializados, aumentando o realismo e a precisão.
featured image - Rumo a um teste virtual preciso e realista por meio da correspondência de formas: trabalho relacionado
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

Autores:

(1) Kedan Li, Universidade de Illinois em Urbana-Champaign;

(2) Min Jin Chong, Universidade de Illinois em Urbana-Champaign;

(3) Jingen Liu, JD AI Research;

(4) David Forsyth, Universidade de Illinois em Urbana-Champaign.

Tabela de links

2. Trabalho relacionado

Síntese de imagens : Redes de transformadores espaciais estimam transformações geométricas usando redes neurais [23]. O trabalho subsequente [28,39] mostra como distorcer um objeto em outro. Warping pode ser usado para produzir imagens de objetos rígidos [26,30] e objetos não rígidos (por exemplo, roupas) [17,12,45]. Em contraste com o trabalho anterior, usamos vários warpers espaciais.


Nossas deformações devem ser combinadas em uma única imagem, e nossa U-Net para produzir esta imagem segue tendências de pintura interna (métodos que preenchem partes faltantes de uma imagem, consulte [48,31,50,49]). Han et al. [16,52] mostram que métodos de pintura podem completar peças de roupa perdidas nas pessoas.


Em nosso trabalho, utilizamos FID∞ para avaliar quantitativamente nosso método. Isto é baseado na Distância de Iniciação de Frchet (FID) [18], uma métrica comum na modelagem de imagens generativas [5,54,29]. Chong et al. [9] mostraram recentemente que o FID é tendencioso; a extrapolação remove o viés, para uma pontuação imparcial (FID∞).


Gerando pessoas vestidas: Zhu et al. [57] usaram um GAN condicional para gerar imagens baseadas em poses de esqueleto e descrições de texto de roupas. SwapNet [38] aprende a transferir roupas da pessoa A para a pessoa B, desembaraçando as roupas e as características da pose. Hsiao et al. [20] aprenderam uma rede de síntese de modelos de moda usando codificações por peça de roupa para permitir a edição mínima conveniente de itens específicos. Em contraste, distorcemos os produtos em imagens de modelos reais.


A correspondência de formas é a base do nosso método para combinar o produto com o modelo. Tsiao et al. [19] construíram uma incorporação de forma para permitir a correspondência entre o corpo humano e peças de roupa bem ajustadas. Trabalhos anteriores estimaram a forma do corpo humano [4,27], peças de vestuário [10,25] e ambos [35,40], através de imagens 2D. O descritor DensePose [1] auxilia na modelagem da deformação e sombreamento do tecido e, portanto, foi adotado em trabalhos recentes [36,13,47,51,7,52].


O teste virtual (VTO) mapeia um produto para uma imagem de modelo. VITON [17] utiliza uma U-Net para gerar uma síntese grosseira e uma máscara no modelo onde o produto é apresentado. Um mapeamento da máscara do produto para a máscara do modelo é aprendido por meio da transformação Thin plate spline (TPS) [3]. O mapeamento aprendido é aplicado na imagem do produto para criar uma distorção. Seguindo seu trabalho, Wang et al. [45] melhoraram a arquitetura usando um Módulo de Correspondência Geométrica [39] para estimar os parâmetros de transformações TPS diretamente a partir de pares de imagem do produto e pessoa alvo. Eles treinam uma rede de refinamento separada para combinar a distorção e a imagem alvo. VTNFP [53] estende o trabalho incorporando a previsão de segmentos corporais e trabalhos posteriores seguem procedimento semelhante [37,24,42,22,2]. No entanto, a transformação TPS não produz distorções razoáveis, devido ao ruído das máscaras geradas em nosso conjunto de dados, conforme mostrado na Figura 6 à direita. Em vez disso, adotamos transformações afins que consideramos mais robustas às imperfeições do que a transformação TPS. Um grupo de trabalhos seguintes estendeu a tarefa para múltiplas poses. Warping-GAN [11] combinou treinamento adversário com GMM e gerou pós e textura separadamente usando uma rede de dois estágios. MG-VTON [12] refina ainda mais o método de geração usando uma rede de geração de três estágios. Outros trabalhos [21,55,51,7,46] seguiram procedimento semelhante. Han et al. [15] argumentaram que a transformação TPS tem baixo grau de liberdade e propuseram um método baseado em fluxo para criar a urdidura.


Muitos trabalhos de experimentação virtual existentes [17,12,21,47,55,53,24,37] são avaliados em conjuntos de dados que possuem apenas tops (camiseta, camisa, etc.). Ter apenas topos reduz em grande parte a probabilidade de incompatibilidade de formato, pois os topos têm formatos simples e semelhantes. Em nosso trabalho, estendemos o problema para incluir itens de vestuário de todas as categorias (camiseta, camisa, calça, shorts, vestido, saia, robe, jaqueta, casaco, etc.) e propomos um método para combinar o formato entre o produto de origem e o modelo alvo. A avaliação mostra que o uso de pares que combinam em forma aumenta significativamente a qualidade da geração tanto para o nosso trabalho como para o anterior (tabela 4.3).


Além disso, os trajes reais de estúdio são muitas vezes cobertos por um agasalho aberto/desabotoado, o que também não é apresentado em trabalhos anteriores [17,12,21,47,55,53,37]. Isto pode causar partição ou oclusão severa na peça de vestuário e não é abordado por trabalhos anteriores, como mostrado na Figura 6. Mostramos que o nosso módulo de geração de múltiplas distorções melhora essas dificuldades.


Figura 2. É difícil transferir, digamos, uma camisa de manga comprida para uma modelo vestindo uma camiseta. Nosso processo recupera pares compatíveis em duas etapas. Primeiro, calculamos a incorporação da aparência de uma peça de roupa usando um codificador visual de peça de roupa, treinado usando pares produto-modelo e atenção espacial. Em seguida, um codificador de forma calcula a incorporação da forma a partir da incorporação da aparência da peça de roupa. A incorporação da forma é aprendida usando o contorno do produto como métrica, o que preserva apenas as informações da forma. Na transferência, escolhemos um modelo com uma peça de roupa compatível pesquisando no espaço de incorporação da forma.


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.