paint-brush
Rumo a um teste virtual preciso e realista por meio da correspondência de formas: experimentospor@polyframe
134 leituras

Rumo a um teste virtual preciso e realista por meio da correspondência de formas: experimentos

Muito longo; Para ler

Os pesquisadores melhoram os métodos de teste virtual usando um novo conjunto de dados para escolher modelos de alvo e treinar warpers especializados, aumentando o realismo e a precisão.
featured image - Rumo a um teste virtual preciso e realista por meio da correspondência de formas: experimentos
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

Autores:

(1) Kedan Li, Universidade de Illinois em Urbana-Champaign;

(2) Min Jin Chong, Universidade de Illinois em Urbana-Champaign;

(3) Jingen Liu, JD AI Research;

(4) David Forsyth, Universidade de Illinois em Urbana-Champaign.

Tabela de links

4. Experimentos

4.1 Conjuntos de dados

O conjunto de dados VITON [17] contém pares de imagens do produto (vista frontal, plano, fundo branco) e imagens de estúdio, mapas de pose 2D e pontos-chave de pose. Tem sido utilizado por muitos trabalhos [45,11,15,53,24,22,2,37]. Alguns trabalhos [47,15,13,51] sobre correspondência multi-pose usaram DeepFashion [33] ou MVC [32] e outros conjuntos de dados auto-coletados [12,21,47,55]. Esses conjuntos de dados possuem o mesmo produto usado por várias pessoas, mas não possuem uma imagem do produto, portanto, não são adequados para nossa tarefa.


O conjunto de dados VITON possui apenas topos. Isso provavelmente prejudica o desempenho porque (por exemplo): o caimento das calças é diferente do caimento dos tops; algumas peças de vestuário (roupões, jaquetas, etc.) são frequentemente descompactadas e abertas, criando problemas de deformação; o caimento das saias é altamente variável e depende de detalhes como pregas, orientação da fibra do tecido e assim por diante. Para enfatizar esse problema do mundo real, coletamos um novo conjunto de dados de 422.756 produtos de moda por meio de sites de comércio eletrônico de moda de web scraping. Cada produto contém uma imagem do produto (vista frontal, plano, fundo branco), uma imagem do modelo (única pessoa, principalmente vista frontal) e outros metadados. Usamos todas as categorias, exceto sapatos e acessórios, e as agrupamos em quatro tipos (parte superior, parte inferior, agasalhos ou corpo inteiro). Os detalhes do tipo aparecem nos materiais suplementares.


Dividimos aleatoriamente os dados em 80% para treinamento e 20% para teste. Como o conjunto de dados não vem com anotação de segmentação, usamos Deeplab v3 [6] pré-treinado no conjunto de dados ModaNet [56] para obter as máscaras de segmentação para imagens de modelo. Uma grande parte das máscaras de segmentação são barulhentas, o que aumenta ainda mais a dificuldade (ver Materiais Suplementares).

4.2 Processo de Treinamento

Treinamos nosso modelo em nosso conjunto de dados recém-coletado e no conjunto de dados VITON [17] para facilitar a comparação com trabalhos anteriores. Ao treinar nosso método no conjunto de dados VITON, extraímos apenas a parte do mapa de pose 2D que corresponde ao produto para obter a máscara de segmentação e descartamos o restante. Os detalhes do procedimento de treinamento estão nos Materiais Suplementares.


Também tentamos treinar trabalhos anteriores em nosso conjunto de dados. No entanto, trabalhos anteriores [45,17,11,15,53,24,22,13,47,51,7,37] requerem anotações de estimativa de pose que não estão disponíveis em nosso conjunto de dados. Assim, comparamos apenas com trabalhos anteriores no conjunto de dados VITON.

4.3 Avaliação Quantitativa

A comparação quantitativa com o estado da arte é difícil. Relatar o FID em outros artigos não faz sentido, porque o valor é tendencioso e o viés depende dos parâmetros da rede utilizada [9,37]. Usamos a pontuação FID∞, que é imparcial. Não podemos calcular o FID∞ para a maioria dos outros métodos, porque os resultados não foram divulgados; na verdade, métodos recentes (por exemplo, [15,53,24,24,42,22,2]) não lançaram uma implementação. CP-VTON [45] sim, e usamos isso como ponto de comparação.


5. A figura compara a perda L1 e a perda perceptiva (VGG19 pré-treinado) no conjunto de testes em 200 épocas de treinamento, registradas a cada 5 épocas. k=2 tem o menor erro geral. Usar um k grande acelera o treinamento no estágio inicial, mas depois sobreajusta.


A maior parte da avaliação é qualitativa, e outros [24,37] também calcularam a pontuação FID no conjunto de teste original do VITON, que consiste em apenas 2.032 pares sintetizados. Devido ao pequeno conjunto de dados, esta pontuação FID não é significativa. A variância resultante do cálculo será elevada, o que leva a um grande viés na pontuação do FID, tornando-o impreciso. Para garantir uma comparação precisa, criamos um conjunto de teste maior de 50.000 pares sintetizados por meio de correspondência aleatória, seguindo o procedimento do trabalho original [17]. Criamos novos conjuntos de teste usando nosso modelo de correspondência de formas, selecionando os 25 vizinhos mais próximos no espaço de incorporação de formas para cada item no conjunto de teste original. Produzimos dois conjuntos de dados de 50.000 pares cada, usando imagens coloridas e imagens em tons de cinza para calcular a incorporação da forma. A ablação da escala de cinza nos diz se a incorporação da forma considera as características das cores.


O número de warps é escolhido calculando o erro L1 e o erro perceptual (usando VGG19 pré-treinado no ImageNet) usando warpers com diferentes k no conjunto de teste do nosso conjunto de dados. Aqui o warper é avaliado mapeando um produto para um modelo que usa esse produto. Conforme mostrado na figura 5, k = 2 supera consistentemente k = 1. No entanto, ter mais de dois warps também reduz o desempenho usando a configuração de treinamento atual, possivelmente devido ao overfitting.


Escolhemos β treinando um único modelo de warp com diferentes valores de β usando 10% do conjunto de dados e depois avaliando no teste. A Tabela 1 mostra que um β muito grande ou dois pequenos causam queda no desempenho. β = 3 é o melhor e, portanto, é adotado. A comparação qualitativa está disponível em materiais suplementares.



Com esses dados, podemos comparar o CP-VTON, nosso método usando uma única urdidura (k = 1), e duas urdiduras (k = 2), e duas urdiduras combinadas. O modelo combinado considera a média de duas deformações em vez da concatenação. Os resultados aparecem na Tabela 4.3. Nós achamos:


– para todos os métodos, a escolha do modelo obtém melhores resultados;


– há pouca escolha entre a combinação de cores e tons de cinza, então a combinação atende principalmente ao formato da peça;


– ter dois warpers é melhor do que ter um;


– combinar com um u-net é muito melhor do que misturar.


Acreditamos que os resultados quantitativos subestimam a melhoria do uso de mais warpers, porque a medida quantitativa é relativamente grosseira. A evidência qualitativa apoia isto (figura 7).

4.4 Resultados Qualitativos

Procuramos cuidadosamente exemplos correspondentes em [15,24,53,37] para produzir comparações qualitativas. A comparação com MG-VTON [12] não é aplicável, pois o trabalho não incluiu nenhum exemplo qualitativo de pose fixa. Observe que a comparação favorece o trabalho anterior porque nosso modelo treina e testa usando apenas a região correspondente à roupa no mapa de pose 2D, enquanto o trabalho anterior usa o mapa de pose 2D completo e anotações de pose de ponto-chave.


Geralmente, a transferência de roupas é difícil, mas os métodos modernos agora falham principalmente nos detalhes. Isto significa que a avaliação da transferência requer uma atenção cuidadosa aos detalhes. A Figura 6 mostra algumas comparações. Em particular, prestar atenção aos detalhes da imagem em torno dos limites, texturas e detalhes do vestuário expõe algumas das dificuldades da tarefa. Conforme mostrado na Figura 6 à esquerda, nosso método pode lidar com texturas complicadas de maneira robusta (coluna a, c) e preservar detalhes do logotipo com precisão (coluna b, e, f, g, i). Os exemplos também mostram uma diferença clara entre o nosso método baseado em pintura e trabalhos anteriores – o nosso método apenas modifica a área onde o tecido original está


Tabela 2. Esta tabela compara a pontuação FID∞ (menor melhor) entre diferentes métodos de síntese de imagens em pares aleatórios versus pares correspondentes usando nossa rede de incorporação de formas. Todos os valores na col. 1 são significativamente maiores que os da col. 2 e 3, demonstrando que a escolha de um par compatível melhora significativamente o desempenho de nossos métodos e do CP-VTON. Acreditamos que esta melhoria se aplica a outros métodos, mas outros não publicaram código. Entre os métodos, nosso método com dois warpers supera significativamente o trabalho anterior em todos os conjuntos de teste. Não há muito o que escolher entre a correspondência de cores e tons de cinza, sugerindo que o processo de correspondência se concentra no formato da roupa (como é treinado para fazer). O uso de dois warps (k = 2) mostra uma ligeira melhoria em relação ao uso de um único warp (k = 1), porque as melhorias são difíceis de serem capturadas por qualquer métrica quantitativa. A diferença é mais visível nos exemplos qualitativos (figura 7). É importante usar uma rede em U para combinar warps; apenas misturar produz resultados ruins (última linha).


6. Comparações com CP VTON, ClothFlow, VTNFP e SieveNet no conjunto de dados VITON, usando imagens publicadas para esses métodos. Cada bloco mostra um conjunto de dados diferente. Nossos resultados estão na linha 2, e os resultados do método de comparação estão na linha 3. Observe CP-VTON, em comparação com nosso método: obscurecimento de decotes (b); faixas de alias (c); redimensionamento de transferências (b); manchar a textura e desfocar os limites (a); e transferências desfocadas (b). Observe GarmentGAN, em comparação com nosso método: mutilar o limite do membro (d); perda de contraste nas flores na cintura (d); e alias severamente em uma transferência (e). Observe o ClothFlow, em comparação com nosso método: NÃO aliasing stripes (f); mãos desfocadas (f, g); anatomia indefinida (tendões da clavícula e pescoço, g); redimensionar uma transferência (g). Observe VTNFP, em comparação com nosso método: perda de detalhes de textura (flores no decote e ombros, h); transferências mutilantes (i). Observe o SieveNet, em comparação com nosso método: contornos desfocados (j, k); extravio dos punhos (k); sombreamento mutilante (braço em k). Melhor visualizado em cores em alta resolução.


apresentado. Esta propriedade nos permite preservar os detalhes do membro (coluna a, d, f, g, h, j) e outras peças de roupa (coluna a, b) melhor do que a maioria dos trabalhos anteriores. Alguns de nossos resultados (coluna c, g) mostram artefatos de cores do tecido original na borda, porque a borda do mapa de pose está ligeiramente desalinhada (máscara de segmentação imperfeita). Isso confirma que nosso método depende de máscara de segmentação de granulação fina para produzir resultados de alta qualidade. Alguns pares têm formas ligeiramente incompatíveis (coluna d, h). Isso raramente ocorrerá com nosso método se o conjunto de teste for construído usando incorporação de forma. Portanto, nosso método não tenta resolver isso.


Duas deformações são claramente melhores que uma (Figura 7), provavelmente porque a segunda deformação pode corrigir o alinhamento e os detalhes que o modelo de deformação único não consegue resolver. Melhorias específicas ocorrem para roupas desabotoadas/descompactadas e para imagens de produtos com etiquetas. Essas melhorias podem não ser facilmente capturadas pela avaliação quantitativa porque as diferenças nos valores dos pixels são pequenas.


Figura 7. A figura mostra uma comparação qualitativa entre k = 2 e k = 1. Nota: os botões no lugar errado para uma única urdidura à esquerda, fixos para k = 2; um bolsão mal dimensionado e problemas com limites de manga para a urdidura única no centro esquerdo, corrigido para k = 2; um botão muito mal colocado e flambagem ao redor no centro, corrigido para k = 2; uma etiqueta de roupa mal colocada no centro à direita, fixada para k = 2; outra etiqueta de roupa perdida à direita, fixada para k = 2.


Tentamos treinar o módulo de correspondência geométrica (usando a transformação TPS) para criar distorções em nosso conjunto de dados, como foi frequentemente adotado em trabalhos anteriores [17,45,11]. No entanto, a transformação TPS não conseguiu se adaptar a partições e oclusões significativas (exemplos em Materiais Suplementares).

4.5 Estudo do usuário

Usamos um estudo de usuário para verificar com que frequência os usuários conseguiam identificar imagens sintetizadas. É perguntado ao usuário se a imagem de uma modelo usando um produto (que é mostrado) é real ou sintetizada. O display utiliza a maior resolução possível (512x512), conforme figura 8.


Usamos exemplos em que a máscara é boa, dando uma representação justa do percentil 20 superior dos nossos resultados. Os usuários são preparados com dois pares reais e falsos antes do estudo. Cada participante é então testado com 50 pares de 25 reais e


Figura 8. Duas imagens sintetizadas que 70% dos participantes do estudo do usuário consideraram reais. Observe, por exemplo, o sombreamento, as rugas, até mesmo o zíper e a gola.


Tabela 3. Os resultados do estudo do usuário mostram que os participantes têm grandes dificuldades em distinguir entre imagens reais e sintetizadas. 51,6% e 61,5% das imagens falsas são consideradas reais por multidões e pesquisadores, respectivamente. Ocasionalmente, algumas imagens reais também são consideradas falsas, sugerindo que os participantes prestaram atenção.


25 produtos falsos, sem repetição. Testamos duas populações de usuários (pesquisadores da visão e participantes selecionados aleatoriamente).


Principalmente, os usuários são enganados por nossas imagens; há uma taxa muito alta de falsos positivos (ou seja, imagem sintetizada marcada como real por um usuário) (tabela 3). A Figura 8 mostra dois exemplos de imagens sintetizadas que 70% da população em geral relataram como reais. São exemplos de agasalhos rígidos com divisão de região e sombreamento complexo. No entanto, nosso método conseguiu gerar uma síntese de alta qualidade. Veja material suplementar para todas as dúvidas e resultados completos do estudo do usuário.


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.