Autores:
(1) Kedan Li, Universidade de Illinois em Urbana-Champaign;
(2) Min Jin Chong, Universidade de Illinois em Urbana-Champaign;
(3) Jingen Liu, JD AI Research;
(4) David Forsyth, Universidade de Illinois em Urbana-Champaign.
O conjunto de dados VITON [17] contém pares de imagens do produto (vista frontal, plano, fundo branco) e imagens de estúdio, mapas de pose 2D e pontos-chave de pose. Tem sido utilizado por muitos trabalhos [45,11,15,53,24,22,2,37]. Alguns trabalhos [47,15,13,51] sobre correspondência multi-pose usaram DeepFashion [33] ou MVC [32] e outros conjuntos de dados auto-coletados [12,21,47,55]. Esses conjuntos de dados possuem o mesmo produto usado por várias pessoas, mas não possuem uma imagem do produto, portanto, não são adequados para nossa tarefa.
O conjunto de dados VITON possui apenas topos. Isso provavelmente prejudica o desempenho porque (por exemplo): o caimento das calças é diferente do caimento dos tops; algumas peças de vestuário (roupões, jaquetas, etc.) são frequentemente descompactadas e abertas, criando problemas de deformação; o caimento das saias é altamente variável e depende de detalhes como pregas, orientação da fibra do tecido e assim por diante. Para enfatizar esse problema do mundo real, coletamos um novo conjunto de dados de 422.756 produtos de moda por meio de sites de comércio eletrônico de moda de web scraping. Cada produto contém uma imagem do produto (vista frontal, plano, fundo branco), uma imagem do modelo (única pessoa, principalmente vista frontal) e outros metadados. Usamos todas as categorias, exceto sapatos e acessórios, e as agrupamos em quatro tipos (parte superior, parte inferior, agasalhos ou corpo inteiro). Os detalhes do tipo aparecem nos materiais suplementares.
Dividimos aleatoriamente os dados em 80% para treinamento e 20% para teste. Como o conjunto de dados não vem com anotação de segmentação, usamos Deeplab v3 [6] pré-treinado no conjunto de dados ModaNet [56] para obter as máscaras de segmentação para imagens de modelo. Uma grande parte das máscaras de segmentação são barulhentas, o que aumenta ainda mais a dificuldade (ver Materiais Suplementares).
Treinamos nosso modelo em nosso conjunto de dados recém-coletado e no conjunto de dados VITON [17] para facilitar a comparação com trabalhos anteriores. Ao treinar nosso método no conjunto de dados VITON, extraímos apenas a parte do mapa de pose 2D que corresponde ao produto para obter a máscara de segmentação e descartamos o restante. Os detalhes do procedimento de treinamento estão nos Materiais Suplementares.
Também tentamos treinar trabalhos anteriores em nosso conjunto de dados. No entanto, trabalhos anteriores [45,17,11,15,53,24,22,13,47,51,7,37] requerem anotações de estimativa de pose que não estão disponíveis em nosso conjunto de dados. Assim, comparamos apenas com trabalhos anteriores no conjunto de dados VITON.
A comparação quantitativa com o estado da arte é difícil. Relatar o FID em outros artigos não faz sentido, porque o valor é tendencioso e o viés depende dos parâmetros da rede utilizada [9,37]. Usamos a pontuação FID∞, que é imparcial. Não podemos calcular o FID∞ para a maioria dos outros métodos, porque os resultados não foram divulgados; na verdade, métodos recentes (por exemplo, [15,53,24,24,42,22,2]) não lançaram uma implementação. CP-VTON [45] sim, e usamos isso como ponto de comparação.
A maior parte da avaliação é qualitativa, e outros [24,37] também calcularam a pontuação FID no conjunto de teste original do VITON, que consiste em apenas 2.032 pares sintetizados. Devido ao pequeno conjunto de dados, esta pontuação FID não é significativa. A variância resultante do cálculo será elevada, o que leva a um grande viés na pontuação do FID, tornando-o impreciso. Para garantir uma comparação precisa, criamos um conjunto de teste maior de 50.000 pares sintetizados por meio de correspondência aleatória, seguindo o procedimento do trabalho original [17]. Criamos novos conjuntos de teste usando nosso modelo de correspondência de formas, selecionando os 25 vizinhos mais próximos no espaço de incorporação de formas para cada item no conjunto de teste original. Produzimos dois conjuntos de dados de 50.000 pares cada, usando imagens coloridas e imagens em tons de cinza para calcular a incorporação da forma. A ablação da escala de cinza nos diz se a incorporação da forma considera as características das cores.
O número de warps é escolhido calculando o erro L1 e o erro perceptual (usando VGG19 pré-treinado no ImageNet) usando warpers com diferentes k no conjunto de teste do nosso conjunto de dados. Aqui o warper é avaliado mapeando um produto para um modelo que usa esse produto. Conforme mostrado na figura 5, k = 2 supera consistentemente k = 1. No entanto, ter mais de dois warps também reduz o desempenho usando a configuração de treinamento atual, possivelmente devido ao overfitting.
Escolhemos β treinando um único modelo de warp com diferentes valores de β usando 10% do conjunto de dados e depois avaliando no teste. A Tabela 1 mostra que um β muito grande ou dois pequenos causam queda no desempenho. β = 3 é o melhor e, portanto, é adotado. A comparação qualitativa está disponível em materiais suplementares.
Com esses dados, podemos comparar o CP-VTON, nosso método usando uma única urdidura (k = 1), e duas urdiduras (k = 2), e duas urdiduras combinadas. O modelo combinado considera a média de duas deformações em vez da concatenação. Os resultados aparecem na Tabela 4.3. Nós achamos:
– para todos os métodos, a escolha do modelo obtém melhores resultados;
– há pouca escolha entre a combinação de cores e tons de cinza, então a combinação atende principalmente ao formato da peça;
– ter dois warpers é melhor do que ter um;
– combinar com um u-net é muito melhor do que misturar.
Acreditamos que os resultados quantitativos subestimam a melhoria do uso de mais warpers, porque a medida quantitativa é relativamente grosseira. A evidência qualitativa apoia isto (figura 7).
Procuramos cuidadosamente exemplos correspondentes em [15,24,53,37] para produzir comparações qualitativas. A comparação com MG-VTON [12] não é aplicável, pois o trabalho não incluiu nenhum exemplo qualitativo de pose fixa. Observe que a comparação favorece o trabalho anterior porque nosso modelo treina e testa usando apenas a região correspondente à roupa no mapa de pose 2D, enquanto o trabalho anterior usa o mapa de pose 2D completo e anotações de pose de ponto-chave.
Geralmente, a transferência de roupas é difícil, mas os métodos modernos agora falham principalmente nos detalhes. Isto significa que a avaliação da transferência requer uma atenção cuidadosa aos detalhes. A Figura 6 mostra algumas comparações. Em particular, prestar atenção aos detalhes da imagem em torno dos limites, texturas e detalhes do vestuário expõe algumas das dificuldades da tarefa. Conforme mostrado na Figura 6 à esquerda, nosso método pode lidar com texturas complicadas de maneira robusta (coluna a, c) e preservar detalhes do logotipo com precisão (coluna b, e, f, g, i). Os exemplos também mostram uma diferença clara entre o nosso método baseado em pintura e trabalhos anteriores – o nosso método apenas modifica a área onde o tecido original está
apresentado. Esta propriedade nos permite preservar os detalhes do membro (coluna a, d, f, g, h, j) e outras peças de roupa (coluna a, b) melhor do que a maioria dos trabalhos anteriores. Alguns de nossos resultados (coluna c, g) mostram artefatos de cores do tecido original na borda, porque a borda do mapa de pose está ligeiramente desalinhada (máscara de segmentação imperfeita). Isso confirma que nosso método depende de máscara de segmentação de granulação fina para produzir resultados de alta qualidade. Alguns pares têm formas ligeiramente incompatíveis (coluna d, h). Isso raramente ocorrerá com nosso método se o conjunto de teste for construído usando incorporação de forma. Portanto, nosso método não tenta resolver isso.
Duas deformações são claramente melhores que uma (Figura 7), provavelmente porque a segunda deformação pode corrigir o alinhamento e os detalhes que o modelo de deformação único não consegue resolver. Melhorias específicas ocorrem para roupas desabotoadas/descompactadas e para imagens de produtos com etiquetas. Essas melhorias podem não ser facilmente capturadas pela avaliação quantitativa porque as diferenças nos valores dos pixels são pequenas.
Tentamos treinar o módulo de correspondência geométrica (usando a transformação TPS) para criar distorções em nosso conjunto de dados, como foi frequentemente adotado em trabalhos anteriores [17,45,11]. No entanto, a transformação TPS não conseguiu se adaptar a partições e oclusões significativas (exemplos em Materiais Suplementares).
Usamos um estudo de usuário para verificar com que frequência os usuários conseguiam identificar imagens sintetizadas. É perguntado ao usuário se a imagem de uma modelo usando um produto (que é mostrado) é real ou sintetizada. O display utiliza a maior resolução possível (512x512), conforme figura 8.
Usamos exemplos em que a máscara é boa, dando uma representação justa do percentil 20 superior dos nossos resultados. Os usuários são preparados com dois pares reais e falsos antes do estudo. Cada participante é então testado com 50 pares de 25 reais e
25 produtos falsos, sem repetição. Testamos duas populações de usuários (pesquisadores da visão e participantes selecionados aleatoriamente).
Principalmente, os usuários são enganados por nossas imagens; há uma taxa muito alta de falsos positivos (ou seja, imagem sintetizada marcada como real por um usuário) (tabela 3). A Figura 8 mostra dois exemplos de imagens sintetizadas que 70% da população em geral relataram como reais. São exemplos de agasalhos rígidos com divisão de região e sombreamento complexo. No entanto, nosso método conseguiu gerar uma síntese de alta qualidade. Veja material suplementar para todas as dúvidas e resultados completos do estudo do usuário.
Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.