paint-brush
Rumo a um teste virtual preciso e realista por meio da correspondência de formas: resumo e introduçãopor@polyframe
137 leituras

Rumo a um teste virtual preciso e realista por meio da correspondência de formas: resumo e introdução

Muito longo; Para ler

Os pesquisadores melhoram os métodos de teste virtual usando um novo conjunto de dados para escolher modelos de alvo e treinar warpers especializados, aumentando o realismo e a precisão.
featured image - Rumo a um teste virtual preciso e realista por meio da correspondência de formas: resumo e introdução
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

Autores:

(1) Kedan Li, Universidade de Illinois em Urbana-Champaign;

(2) Min Jin Chong, Universidade de Illinois em Urbana-Champaign;

(3) Jingen Liu, JD AI Research;

(4) David Forsyth, Universidade de Illinois em Urbana-Champaign.

Tabela de links

Abstrato

Um método de teste virtual pega uma imagem do produto e uma imagem de um modelo e produz uma imagem do modelo usando o produto. A maioria dos métodos calcula essencialmente distorções da imagem do produto até a imagem do modelo e combina usando métodos de geração de imagem. No entanto, obter uma imagem realista é um desafio porque a cinemática das peças de vestuário é complexa e porque o contorno, a textura e os sinais de sombreamento na imagem revelam erros aos observadores humanos. A vestimenta deve ter cortinas adequadas; a textura deve ser deformada para ser consistente com o formato da roupa drapeada; pequenos detalhes (botões, golas, lapelas, bolsos, etc.) devem ser colocados de forma adequada na peça, e assim por diante. A avaliação é particularmente difícil e geralmente é qualitativa.


Este artigo usa avaliação quantitativa em um conjunto de dados novo e desafiador para demonstrar que (a) para qualquer método de warping, pode-se escolher modelos alvo automaticamente para melhorar os resultados, e (b) aprender vários warpers especializados coordenados oferece melhorias adicionais nos resultados. Os modelos alvo são escolhidos por um procedimento de incorporação aprendido que prevê uma representação dos produtos que o modelo está vestindo. Essa previsão é usada para combinar produtos com modelos. Warpers especializados são treinados por um método que incentiva um segundo warper a ter um bom desempenho em locais onde o primeiro funciona mal. As urdiduras são então combinadas usando uma U-Net. A avaliação qualitativa confirma que essas melhorias são generalizadas em termos de contorno, sombreamento de textura e detalhes do vestuário.


Palavras-chave: Moda, Prova virtual, Geração de imagens, Deformação de imagens

1. Introdução

O comércio eletrónico significa não poder experimentar um produto, o que é difícil para os consumidores de moda [44]. Os sites agora publicam rotineiramente sessões de fotos de modelos usando produtos, mas o volume e a rotatividade significam que fazer isso é muito caro e demorado [34]. É necessário gerar imagens realistas e precisas de modelos vestindo diferentes conjuntos de roupas. Poderíamos usar modelos 3D de postura [8,14]. A alternativa – sintetizar imagens de modelos de produtos sem medições 3D [17,45,39,11,15] – é conhecida como teste virtual. Esses métodos geralmente consistem em dois componentes: 1) um transformador espacial para deformar o produto


Figura 1. Traduzir um produto para um modelo mal escolhido traz dificuldades (modelo aleatório; observe como o blazer ficou amassado à esquerda e a camisa esticada à direita). Nosso método pode escolher um bom modelo alvo para um determinado produto, levando a uma melhoria qualitativa e quantitativa significativa nas transferências (modelo escolhido). Além disso, treinamos múltiplos urdidores para atuarem de forma coordenada, o que potencializa ainda mais os resultados da geração (aprimorado; as casas de botão da jaqueta estão no lugar certo à esquerda, e a fileira de botões do cardigã é plausível à direita). A figura mostra que (a) escolher cuidadosamente o modelo a ser distorcido e (b) usar vários urdidores especializados melhora significativamente a transferência. Os resultados quantitativos na tabela 4.3 apoiam fortemente os dois pontos apresentados.


imagem usando alguma estimativa da pose do modelo e 2) uma rede de geração de imagem que combina o produto distorcido grosseiramente alinhado com a imagem do modelo para produzir uma imagem realista do modelo usando o produto.


É muito mais fácil transferir com peças simples como camisetas, que são enfatizadas na literatura. As roupas em geral (ao contrário das camisetas) podem abrir na frente; têm cortinas sofisticadas; possuem estruturas moldadas como golas e punhos; tem botões; e assim por diante. Esses efeitos desafiam severamente os métodos existentes (exemplos em Materiais Suplementares). A deformação é significativamente melhorada se usarmos a imagem do produto para escolher uma imagem de modelo que seja adequada para aquela peça de roupa (Figura 1).


Pelo menos em parte, isso é resultado de como as redes de geração de imagens são treinadas. Treinamos usando imagens emparelhadas – um produto e uma modelo usando um produto [17,45,53]. Isso significa que a rede de geração sempre espera que a imagem alvo seja adequada ao produto (por isso não é treinada para, por exemplo, colocar um suéter em uma modelo usando vestido, Figura 1). Uma alternativa é utilizar treinamento adversário [11,12,38,13,37]; mas é difícil preservar detalhes específicos do produto (por exemplo, um estilo particular de botões; um decalque numa t-shirt) neste contexto. Para lidar com essa dificuldade, aprendemos um espaço de incorporação para escolher pares produto-modelo que resultarão em transferências de alta qualidade (Figura 2). A incorporação aprende a prever o formato que uma peça de roupa em uma imagem de modelo teria se estivesse em uma imagem de produto. Os produtos são então combinados com modelos que usam roupas de formato semelhante. Como os modelos normalmente usam muitas peças de roupa, usamos um codificador visual de atenção espacial para analisar cada categoria (parte superior, inferior, agasalhos, todo o corpo, etc.) de roupa e incorporar cada uma separadamente.


Outro problema surge quando uma peça de roupa está aberta (por exemplo, um casaco desabotoado). Neste caso, o alvo do warp pode ter mais de um componente conectado. Warpers tendem a reagir ajustando bem uma região e mal a outra, resultando em detalhes desalinhados (os botões da Figura 1). Tais erros podem contribuir pouco para a perda de treinamento, mas são muito aparentes e considerados problemas graves por usuários reais. Mostramos que o uso de múltiplos warps especializados coordenados produz melhorias quantitativas e qualitativas substanciais no warping. Nosso warper produz múltiplos warps, treinados para coordenar entre si. Uma rede de pintura combina as deformações e o modelo mascarado e cria uma imagem sintetizada. A rede de pintura aprende essencialmente a escolher entre as urdiduras, ao mesmo tempo que orienta o urdidor, pois eles são treinados em conjunto. A avaliação qualitativa confirma que uma parte importante da melhoria resulta de melhores previsões de botões, bolsos, etiquetas e similares.


Mostramos avaliações quantitativas em larga escala de experimentação virtual. Coletamos um novo conjunto de dados de 422.756 pares de imagens de produtos e fotos de estúdio explorando sites de comércio eletrônico de moda. O conjunto de dados contém várias categorias de produtos. Comparamos com trabalhos anteriores no conjunto de dados VITON estabelecido [17], tanto quantitativa quanto qualitativamente. O resultado quantitativo mostra que a escolha dos pares de modelos de produtos usando nossa incorporação de formas produz melhorias significativas para todos os pipelines de geração de imagens (tabela 4.3). O uso de múltiplas urdiduras também supera consistentemente a linha de base da urdidura única, demonstrado através de resultados quantitativos (tabela 4.3, figura 5) e qualitativos (figura 7). A comparação qualitativa com trabalhos anteriores mostra que nosso sistema preserva os detalhes tanto da peça de roupa a ser trocada quanto do modelo alvo com mais precisão do que trabalhos anteriores. Realizamos um estudo de usuário simulando o custo do comércio eletrônico para substituir o modelo real pelo modelo sintetizado. O resultado mostra que 40% do nosso modelo sintetizado são considerados modelos reais.


Como um resumo de nossas contribuições:


– introduzimos um procedimento de correspondência que resulta em melhorias qualitativas e quantitativas significativas na prova virtual, qualquer que seja o urdidor utilizado.


– introduzimos um modelo de warping que aprende múltiplos warps coordenados e supera consistentemente as linhas de base em todos os conjuntos de teste.

– nossos resultados gerados preservam detalhes de forma precisa e realista o suficiente para fazer os compradores pensarem que algumas das imagens sintetizadas são reais.


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.