Авторы:
(1) Кедан Ли, Университет Иллинойса в Урбана-Шампейн;
(2) Мин Джин Чонг, Университет Иллинойса в Урбана-Шампейн;
(3) Джинген Лю, JD AI Research;
(4) Дэвид Форсайт, Университет Иллинойса в Урбана-Шампейн.
Набор данных VITON [17] содержит пары изображений продукта (вид спереди, горизонтальное расположение, белый фон) и студийные изображения, 2D-карты поз и ключевые точки поз. Он использовался во многих работах [45,11,15,53,24,22,2,37]. В некоторых работах [47,15,13,51] по сопоставлению нескольких поз использовались DeepFashion [33] или MVC [32] и другие наборы данных, собираемые самостоятельно [12,21,47,55]. Эти наборы данных содержат один и тот же продукт, который носят несколько человек, но не имеют изображения продукта, поэтому не подходят для нашей задачи.
В наборе данных VITON есть только вершины. Это, вероятно, приводит к повышению производительности, потому что (например): драпировка брюк отличается от драпировки топов; некоторые предметы одежды (халаты, куртки и т. д.) часто расстегиваются и расстегиваются, что приводит к деформации; Драпировка юбок очень разнообразна и зависит от таких деталей, как складки, ориентация волокон ткани и так далее. Чтобы подчеркнуть эти реальные проблемы, мы собрали новый набор данных из 422 756 модных товаров с помощью веб-сайтов электронной коммерции, посвященных моде. Каждый продукт содержит изображение продукта (вид спереди, горизонтальное положение, белый фон), изображение модели (один человек, в основном вид спереди) и другие метаданные. Мы используем все категории, кроме обуви и аксессуаров, и группируем их в четыре типа (верх, низ, верхняя одежда или все тело). Подробности о типе указаны в дополнительных материалах.
Мы случайным образом разделили данные на 80% для обучения и 20% для тестирования. Поскольку набор данных не содержит аннотаций сегментации, мы используем Deeplab v3 [6], предварительно обученный на наборе данных ModaNet [56], для получения масок сегментации для модельных изображений. Большая часть масок сегментации зашумлена, что еще больше увеличивает сложность (см. Дополнительные материалы).
Мы обучаем нашу модель на нашем недавно собранном наборе данных и наборе данных VITON [17], чтобы облегчить сравнение с предыдущей работой. При обучении нашего метода на наборе данных VITON мы извлекаем только ту часть 2D-карты позы, которая соответствует продукту, для получения маски сегментации, а остальную часть отбрасываем. Подробности процедуры обучения описаны в дополнительных материалах.
Мы также попытались обучить предыдущие работы на нашем наборе данных. Однако предыдущая работа [45,17,11,15,53,24,22,13,47,51,7,37] требует аннотаций оценки позы, которых нет в нашем наборе данных. Таким образом, мы сравниваем только с предыдущей работой над набором данных VITON.
Количественное сравнение с современным состоянием затруднено. Сообщать о FID в других статьях бессмысленно, поскольку значение смещено, а смещение зависит от параметров используемой сети [9,37]. Мы используем оценку FID∞, которая является несмещенной. Мы не можем вычислить FID∞ для большинства других методов, поскольку результаты не опубликованы; фактически, последние методы (например, [15,53,24,24,42,22,2]) не выпустили реализацию. CP-VTON [45] имеет, и мы используем это в качестве точки сравнения.
Большинство оценок являются качественными, а другие [24,37] также рассчитали оценку FID на исходном тестовом наборе VITON, который состоит всего из 2032 синтезированных пар. Из-за небольшого набора данных этот показатель FID не имеет смысла. Отклонение, возникающее в результате расчета, будет высоким, что приведет к большой погрешности оценки FID, что сделает ее неточной. Чтобы обеспечить точное сравнение, мы создали больший тестовый набор из 50 000 синтезированных пар путем случайного сопоставления, следуя процедуре оригинальной работы [17]. Мы создали новые наборы тестов, используя нашу модель сопоставления форм, выбрав 25 лучших ближайших соседей в пространстве встраивания фигур для каждого элемента исходного набора тестов. Мы создаем два набора данных, каждый из 50 000 пар, используя цветные изображения и изображения в оттенках серого для вычисления внедрения формы. Удаление оттенков серого говорит нам, учитывает ли встраивание формы цветовые особенности.
Количество деформаций выбирается путем вычисления ошибки L1 и ошибки восприятия (с использованием VGG19, предварительно обученного в ImageNet) с использованием деформаторов с разными k на тестовом наборе нашего набора данных. Здесь варпер оценивается путем сопоставления продукта с моделью, носящей этот продукт. Как показано на рисунке 5, k = 2 постоянно превосходит k = 1. Однако наличие более двух деформаций также снижает производительность при использовании текущей конфигурации обучения, возможно, из-за переобучения.
Мы выбираем β, обучая одну модель деформации с разными значениями β, используя 10% набора данных, а затем оценивая ее при тестировании. Таблица 1 показывает, что слишком большое или два малых значения β приводят к падению производительности. β = 3 оказывается лучшим и поэтому принимается. Качественное сравнение доступно в дополнительных материалах.
С помощью этих данных мы можем сравнить CP-VTON, наш метод, использующий одну деформацию (k = 1), две деформации (k = 2) и две смешанные деформации. Смешанная модель принимает в среднем две деформации вместо конкатенации. Результаты представлены в Таблице 4.3. Мы нашли:
– для всех методов выбор модели дает лучшие результаты;
– выбор между сопоставлением цвета и оттенков серого невелик, поэтому сопоставление в основном касается формы одежды;
– иметь двух сноваторов лучше, чем одного;
– объединение с u-net гораздо лучше, чем смешивание.
Мы считаем, что количественные результаты недооценивают улучшение от использования большего количества сновальных машин, поскольку количественные измерения являются относительно грубыми. Качественные данные подтверждают это (рис. 7).
Мы внимательно изучили соответствующие примеры в [15,24,53,37] для проведения качественных сравнений. Сравнение с MG-VTON [12] неприменимо, поскольку работа не включала ни одного качественного примера с фиксированной позой. Обратите внимание, что сравнение имеет преимущество перед предыдущей работой, поскольку наша модель обучается и тестируется только с использованием области, соответствующей предмету одежды на 2D-карте поз, тогда как в предыдущей работе используется полная 2D-карта поз и аннотации позы ключевых точек.
Как правило, перенос одежды представляет собой сложную задачу, но современные методы в настоящее время в основном не справляются с деталями. Это означает, что оценка передачи требует пристального внимания к деталям. На рисунке 6 показаны некоторые сравнения. В частности, внимание к деталям изображения вокруг границ, текстур и деталей одежды обнажает некоторые трудности в выполнении задачи. Как показано на рисунке 6 слева, наш метод может надежно обрабатывать сложную текстуру (столбцы a, c) и точно сохранять детали логотипа (столбцы b, e, f, g, i). Примеры также показывают четкую разницу между нашим методом, основанным на рисовании, и предыдущей работой — наш метод изменяет только область, где находится исходная ткань.
представлено. Это свойство позволяет нам сохранить детали конечностей (цвета а, г, е, ж, з, к) и других предметов одежды (цвета а, б) лучше, чем большинство предыдущих работ. Некоторые из наших результатов (столбцы c, g) показывают цветовые артефакты исходной ткани на границе, поскольку край карты позы слегка смещен (несовершенная маска сегментации). Это подтверждает, что наш метод основан на мелкозернистой маске сегментации для получения высококачественного результата. Некоторые пары слегка не совпадают по форме (цвет d, h). С нашим методом это будет происходить редко, если тестовый набор создан с использованием внедрения формы. Поэтому наш метод не пытается решить эту проблему.
Две деформации явно лучше, чем одна (рис. 7), вероятно, потому, что вторая деформация может исправить выравнивание и детали, которые не удается учесть с помощью одной модели деформации. Особые улучшения касаются расстегнутой/расстегнутой верхней одежды и изображений товаров с бирками. Эти улучшения нелегко отразить количественной оценкой, поскольку различия в значениях пикселей невелики.
Мы попытались обучить модуль геометрического сопоставления (с использованием преобразования TPS) для создания искажений в нашем наборе данных, как это часто применялось в предыдущих работах [17,45,11]. Однако преобразование TPS не смогло адаптироваться к перегородкам и значительным окклюзиям (примеры в дополнительных материалах).
Мы использовали исследование пользователей, чтобы проверить, как часто пользователи могут идентифицировать синтезированные изображения. Пользователя спрашивают, является ли изображение модели в продукте (который показан) реальным или синтезированным. Дисплей использует максимально возможное разрешение (512x512), как показано на рисунке 8.
Мы использовали примеры, в которых маска хороша, что дает справедливое представление о 20 верхних процентилях наших результатов. Перед исследованием пользователям предлагаются две реальные и фальшивые пары. Затем каждый участник тестируется с 50 парами по 25 реальных и
25 подделок, без повторяющихся товаров. Мы тестируем две группы пользователей (исследователи зрения и случайно выбранные участники).
Чаще всего пользователи обманываются нашими изображениями; существует очень высокий уровень ложноположительных результатов (т.е. синтезированного изображения, помеченного пользователем как реальное) (таблица 3). На рисунке 8 показаны два примера синтезированных изображений, которые 70% населения в целом назвали реальными. Это жесткие образцы верхней одежды с разделением областей и сложной штриховкой. Тем не менее, наш метод позволил обеспечить синтез высокого качества. См. дополнительные материалы по всем вопросам и полные результаты исследования пользователей.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.