Авторы:
(1) Кедан Ли, Университет Иллинойса в Урбана-Шампейн;
(2) Мин Джин Чонг, Университет Иллинойса в Урбана-Шампейн;
(3) Джинген Лю, JD AI Research;
(4) Дэвид Форсайт, Университет Иллинойса в Урбана-Шампейн.
Синтез изображений : Сети пространственных преобразователей оценивают геометрические преобразования с помощью нейронных сетей [23]. Последующая работа [28,39] показывает, как преобразовать один объект в другой. Деформацию можно использовать для создания изображений жестких объектов [26,30] и нежестких объектов (например, одежды) [17,12,45]. В отличие от предыдущей работы, мы используем несколько пространственных деформаторов.
Наши деформации должны быть объединены в одно изображение, и наша U-Net для создания этого изображения следует тенденциям в рисовании (методы, заполняющие недостающие части изображения, см. [48,31,50,49]). Хан и др. [16,52] показывают, что методы закрашивания могут восполнить недостающие предметы одежды у людей.
В нашей работе мы используем FID∞ для количественной оценки нашего метода. Это основано на начальном расстоянии Фреше (FID) [18], распространенной метрике в генеративном моделировании изображений [5,54,29]. Чонг и др. [9] недавно показали, что FID является предвзятым; экстраполяция устраняет смещение до несмещенной оценки (FID∞).
Создание одетых людей: Zhu et al. [57] использовали условный GAN для генерации изображений на основе скелета позы и текстовых описаний одежды. SwapNet [38] учится переносить одежду от человека А к человеку Б, распутывая одежду и особенности позы. Сяо и др. [20] изучили сеть синтеза модных моделей, использующую кодировку для каждого предмета одежды, чтобы обеспечить удобное минимальное редактирование конкретных предметов. Напротив, мы преобразуем продукты в изображения реальных моделей.
Сопоставление формы лежит в основе нашего метода сопоставления продукта с моделью. Цяо и др. [19] создали встраивание форм, позволяющее сопоставлять человеческое тело с хорошо сидящими предметами одежды. Предыдущая работа оценивала форму человеческого тела [4,27], предметов одежды [10,25] и того и другого [35,40] с помощью 2D-изображений. Дескриптор DensePose [1] помогает моделировать деформацию и затенение ткани и поэтому был принят в недавней работе [36,13,47,51,7,52].
Виртуальная примерка (VTO) сопоставляет продукт с изображением модели. VITON [17] использует U-Net для генерации грубого синтеза и маски модели, в которой представлен продукт. Сопоставление маски продукта с маской модели изучается посредством преобразования «Тонкий сплайн пластины» (TPS) [3]. Изученное сопоставление применяется к изображению продукта для создания деформации. Следуя своей работе, Wang et al. [45] улучшили архитектуру с помощью модуля геометрического сопоставления [39] для оценки параметров преобразований TPS непосредственно по парам изображения продукта и целевого человека. Они обучают отдельную сеть уточнения для объединения варпа и целевого изображения. VTNFP [53] расширяет работу, включая прогнозирование сегментов тела, а более поздние работы следуют аналогичной процедуре [37,24,42,22,2]. Однако преобразование TPS не может привести к разумным искажениям из-за зашумленности сгенерированных масок в нашем наборе данных, как показано на рисунке 6 справа. Вместо этого мы принимаем аффинные преобразования, которые, как мы обнаружили, более устойчивы к несовершенствам, вместо преобразования TPS. Группа следующих работ расширила задачу до многопозиции. Warping-GAN [11] объединил состязательное обучение с GMM и генерировал посты и текстуры отдельно, используя двухэтапную сеть. MG-VTON [12] дополнительно усовершенствовал метод генерации с использованием трехступенчатой сети генерации. Другая работа [21,55,51,7,46] следовала аналогичной процедуре. Хан и др. [15] утверждали, что трансформация TPS имеет низкую степень свободы, и предложили метод, основанный на потоке, для создания деформации.
Большая часть существующих виртуальных примерочных работ [17,12,21,47,55,53,24,37] оценивается на наборах данных, в которых есть только верх (футболка, рубашка и т. д.). Наличие только вершин значительно снижает вероятность несоответствия форм, поскольку вершины имеют простые и похожие формы. В нашей работе мы расширяем задачу, включив в нее предметы одежды всех категорий (футболка, рубашка, брюки, шорты, платье, юбка, халат, куртка, пальто и т. д.) и предлагаем метод сопоставления формы исходного продукта. и целевая модель. Оценка показывает, что использование пар, совпадающих по форме, значительно повышает качество генерации как в нашей, так и в предыдущей работе (таблица 4.3).
Кроме того, настоящие студийные наряды часто прикрываются расстегнутой верхней одеждой, что также не представлено в предшествующих работах [17,12,21,47,55,53,37]. Это может привести к разделению или серьезному защемлению одежды и не устраняется предыдущими работами, как показано на рисунке 6. Мы показываем, что наш модуль генерации нескольких деформаций устраняет эти трудности.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.