Авторы:
(1) Кедан Ли, Университет Иллинойса в Урбана-Шампейн;
(2) Мин Джин Чонг, Университет Иллинойса в Урбана-Шампейн;
(3) Джинген Лю, JD AI Research;
(4) Дэвид Форсайт, Университет Иллинойса в Урбана-Шампейн.
Метод виртуальной примерки берет изображение продукта и изображение модели и создает изображение модели, носящей этот продукт. Большинство методов по существу вычисляют искажения изображения продукта и изображения модели и объединяют их с помощью методов генерации изображений. Однако получение реалистичного изображения является сложной задачей, поскольку кинематика одежды сложна, а также потому, что контуры, текстура и оттенки на изображении выявляют ошибки для зрителей. Одежда должна иметь соответствующие драпировки; текстура должна быть деформирована, чтобы соответствовать форме драпированной одежды; мелкие детали (пуговицы, воротники, лацканы, карманы и т. д.) должны располагаться на одежде соответствующим образом и т. д. Оценка особенно сложна и обычно носит качественный характер.
В этой статье используется количественная оценка сложного нового набора данных, чтобы продемонстрировать, что (а) для любого метода деформации можно автоматически выбирать целевые модели для улучшения результатов и (б) изучение нескольких скоординированных специализированных инструментов деформации обеспечивает дальнейшее улучшение результатов. Целевые модели выбираются с помощью изученной процедуры внедрения, которая прогнозирует представление продуктов, которые носит модель. Этот прогноз используется для сопоставления продуктов с моделями. Специализированные варщики обучаются по методу, который побуждает второго варщика хорошо работать в тех местах, где первый работает плохо. Затем основы объединяются с помощью U-Net. Качественная оценка подтверждает, что эти улучшения коснулись контуров, затенения текстуры и деталей одежды.
Ключевые слова: Мода, Виртуальная примерка, Генерация изображения, Деформация изображения.
Электронная коммерция означает отсутствие возможности примерить товар, что сложно для потребителей моды [44]. На сайтах теперь регулярно размещаются фотосессии моделей в продуктах, но объемы и обороты означают, что это очень дорого и отнимает много времени [34]. Существует необходимость создания реалистичных и точных изображений манекенщиц в разных комплектах одежды. Можно использовать 3D-модели осанки [8,14]. Альтернатива — синтезировать изображения модели продукта без 3D-измерений [17,45,39,11,15] — известна как виртуальная примерка. Эти методы обычно состоят из двух компонентов: 1) пространственный преобразователь для деформации изделия.
изображение с использованием некоторой оценки позы модели и 2) сеть генерации изображений, которая объединяет грубо выровненный, деформированный продукт с изображением модели для создания реалистичного изображения модели, носящей этот продукт.
Гораздо легче перенести это с помощью простой одежды, такой как футболки, чему уделяется особое внимание в литературе. Одежда общего назначения (в отличие от футболок) может открываться спереди; иметь изысканные портьеры; иметь фигурные конструкции, такие как воротники и манжеты; есть кнопки; и так далее. Эти эффекты серьезно бросают вызов существующим методам (примеры в дополнительных материалах). Деформация значительно улучшается, если использовать изображение продукта для выбора изображения модели, подходящей для этого предмета одежды (рис. 1).
По крайней мере частично, это результат обучения сетей генерации изображений. Мы тренируемся, используя парные изображения – товар и модель, носящую товар [17,45,53]. Это означает, что сеть генерации всегда ожидает, что целевое изображение будет соответствовать продукту (поэтому она не обучена, например, надевать свитер на модель в платье, рис. 1). Альтернативой является использование состязательного обучения [11,12,38,13,37]; но в таких рамках сложно сохранить конкретные детали продукта (например, конкретный стиль пуговиц, надпись на футболке). Чтобы справиться с этой трудностью, мы изучаем пространство внедрения для выбора пар «продукт-модель», что приведет к высококачественным передачам (рис. 2). Встраивание учится предсказывать, какую форму принял бы предмет одежды на изображении модели, если бы он был на изображении продукта. Затем товары подбираются к моделям, носящим одежду аналогичной формы. Поскольку модели обычно носят много предметов одежды, мы используем визуальный кодировщик пространственного внимания, чтобы проанализировать каждую категорию одежды (верх, низ, верхняя одежда, все тело и т. д.) одежды и встроить каждую отдельно.
Другая проблема возникает, когда одежда расстегнута (например, расстегнутое пальто). В этом случае цель варпа может иметь более одного подключенного компонента. Деформаторы имеют тенденцию реагировать, хорошо подгоняя одну область, а другую плохо, что приводит к смещению деталей (кнопки на рисунке 1). Такие ошибки могут незначительно влиять на потери при обучении, но они очень очевидны и реальные пользователи считают их серьезной проблемой. Мы показываем, что использование нескольких скоординированных специализированных деформаций приводит к значительным количественным и качественным улучшениям в деформировании. Наш варпер создает множество варпов, обученных координировать свои действия друг с другом. Сеть рисования объединяет деформации и замаскированную модель и создает синтезированное изображение. Сеть рисования, по сути, учится выбирать между деформациями, а также обеспечивает руководство деформатором, поскольку они обучаются совместно. Качественная оценка подтверждает, что важная часть улучшения является результатом лучшего прогнозирования пуговиц, карманов, этикеток и т.п.
Мы показываем крупномасштабные количественные оценки виртуальной примерки. Мы собрали новый набор данных из 422 756 пар изображений продуктов и студийных фотографий с помощью сайтов электронной коммерции модной одежды. Набор данных содержит несколько категорий продуктов. Мы сравниваем с предыдущей работой по установленному набору данных VITON [17] как количественно, так и качественно. Количественный результат показывает, что выбор пар моделей продуктов с использованием нашего внедрения форм приводит к значительным улучшениям для всех конвейеров генерации изображений (таблица 4.3). Использование нескольких деформаций также значительно превосходит базовый вариант с одной деформацией, о чем свидетельствуют как количественные (таблица 4.3, рисунок 5), так и качественные (рисунок 7) результаты. Качественное сравнение с предыдущей работой показывает, что наша система сохраняет детали как сменной одежды, так и целевой модели более точно, чем предыдущая работа. Мы провели исследование пользователей, моделируя затраты электронной коммерции на замену реальной модели синтезированной моделью. Результат показывает, что 40% нашей синтезированной модели считаются реальными моделями.
Подводя итог нашему вкладу:
– мы вводим процедуру сопоставления, которая приводит к значительным качественным и количественным улучшениям при виртуальной примерке, независимо от того, какая сновальная машина используется.
– мы представляем модель деформации, которая изучает множественные скоординированные деформации и постоянно превосходит базовые показатели на всех наборах тестов.
– наши сгенерированные результаты сохраняют детали достаточно точно и реалистично, чтобы заставить покупателей думать, что некоторые из синтезированных изображений реальны.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.