Autores:
(1) Kedan Li, Universidade de Illinois em Urbana-Champaign;
(2) Min Jin Chong, Universidade de Illinois em Urbana-Champaign;
(3) Jingen Liu, JD AI Research;
(4) David Forsyth, Universidade de Illinois em Urbana-Champaign.
Nosso método tem dois componentes. Uma rede de correspondência de formas (SMN; Figuras 2 e 3) aprende uma incorporação para escolher pares de modelos de vestuário compatíveis com a forma para realizar a transferência. As imagens do produto e do modelo são combinadas encontrando imagens do produto (respectivamente modelo) que estão próximas no espaço de incorporação. Uma rede de teste multi-urdidura (MTN; Figura 4) captura uma imagem de peça de roupa, uma imagem de modelo e uma máscara cobrindo a peça de roupa a ser trocada no modelo e gera uma imagem de síntese realista do modelo vestindo a peça de roupa fornecida. A rede é composta por um urdidor e uma rede de pintura, treinados em conjunto. O warper produz k distorções da imagem do produto, cada uma especializada em determinados recursos. A rede de pintura aprende a combinar warps escolhendo quais recursos procurar em cada warp. SMN e MTN são treinados separadamente.
A perda de incorporação é usada para capturar a correspondência de recursos dos dois domínios e ajudar a reforçar o mecanismo de atenção incorporado na arquitetura da rede. Detalhes sobre a arquitetura de atenção espacial estão em Materiais Suplementares.
Tal como acontece com trabalhos anteriores [17,45], nosso sistema também consiste em dois módulos: (a) um warper para criar múltiplos warps especializados , alinhando a imagem do produto com a máscara; (b) um módulo de pintura para combinar os warps com o modelo mascarado e produzir a imagem de síntese. Ao contrário do trabalho anterior [17,45], os dois módulos são treinados em conjunto e não separadamente, de modo que o pintor guia o urdidor.
Perda em cascata: Com múltiplos warps, cada warp wi é treinado para corrigir os erros cometidos pelos warps anteriores wj onde j <i. Para o k-ésimo warp, calculamos a perda mínima entre todos os warps anteriores em cada pixel, escrita como
A perda em cascata calcula a perda média para todos os warps. Termos de regularização adicionais são aplicados nos parâmetros de transformação, de modo que todos os warps posteriores permaneçam próximos do primeiro warp.
A perda em cascata impõe uma hierarquia entre todos os warps, tornando mais caro para um warp anterior cometer um erro do que para um warp posterior. Isto evita possíveis oscilações durante o treinamento (múltiplos warps competem pelo ideal). A ideia é comparável ao boosting, mas ainda assim diferente porque todas as deformações compartilham gradiente, tornando possível que as deformações anteriores se ajustem de acordo com as deformações posteriores.
Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.