paint-brush
На пути к точной и реалистичной виртуальной примерке посредством сопоставления форм: экспериментык@polyframe
168 чтения

На пути к точной и реалистичной виртуальной примерке посредством сопоставления форм: эксперименты

Слишком долго; Читать

Исследователи совершенствуют методы виртуальной примерки, используя новый набор данных для выбора целевых моделей и обучения специализированных деформаторов, повышая реалистичность и точность.
featured image - На пути к точной и реалистичной виртуальной примерке посредством сопоставления форм: эксперименты
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

Авторы:

(1) Кедан Ли, Университет Иллинойса в Урбана-Шампейн;

(2) Мин Джин Чонг, Университет Иллинойса в Урбана-Шампейн;

(3) Джинген Лю, JD AI Research;

(4) Дэвид Форсайт, Университет Иллинойса в Урбана-Шампейн.

Таблица ссылок

4. Эксперименты

4.1 Наборы данных

Набор данных VITON [17] содержит пары изображений продукта (вид спереди, горизонтальное расположение, белый фон) и студийные изображения, 2D-карты поз и ключевые точки поз. Он использовался во многих работах [45,11,15,53,24,22,2,37]. В некоторых работах [47,15,13,51] по сопоставлению нескольких поз использовались DeepFashion [33] или MVC [32] и другие наборы данных, собираемые самостоятельно [12,21,47,55]. Эти наборы данных содержат один и тот же продукт, который носят несколько человек, но не имеют изображения продукта, поэтому не подходят для нашей задачи.


В наборе данных VITON есть только вершины. Это, вероятно, приводит к повышению производительности, потому что (например): драпировка брюк отличается от драпировки топов; некоторые предметы одежды (халаты, куртки и т. д.) часто расстегиваются и расстегиваются, что приводит к деформации; Драпировка юбок очень разнообразна и зависит от таких деталей, как складки, ориентация волокон ткани и так далее. Чтобы подчеркнуть эти реальные проблемы, мы собрали новый набор данных из 422 756 модных товаров с помощью веб-сайтов электронной коммерции, посвященных моде. Каждый продукт содержит изображение продукта (вид спереди, горизонтальное положение, белый фон), изображение модели (один человек, в основном вид спереди) и другие метаданные. Мы используем все категории, кроме обуви и аксессуаров, и группируем их в четыре типа (верх, низ, верхняя одежда или все тело). Подробности о типе указаны в дополнительных материалах.


Мы случайным образом разделили данные на 80% для обучения и 20% для тестирования. Поскольку набор данных не содержит аннотаций сегментации, мы используем Deeplab v3 [6], предварительно обученный на наборе данных ModaNet [56], для получения масок сегментации для модельных изображений. Большая часть масок сегментации зашумлена, что еще больше увеличивает сложность (см. Дополнительные материалы).

4.2 Процесс обучения

Мы обучаем нашу модель на нашем недавно собранном наборе данных и наборе данных VITON [17], чтобы облегчить сравнение с предыдущей работой. При обучении нашего метода на наборе данных VITON мы извлекаем только ту часть 2D-карты позы, которая соответствует продукту, для получения маски сегментации, а остальную часть отбрасываем. Подробности процедуры обучения описаны в дополнительных материалах.


Мы также попытались обучить предыдущие работы на нашем наборе данных. Однако предыдущая работа [45,17,11,15,53,24,22,13,47,51,7,37] требует аннотаций оценки позы, которых нет в нашем наборе данных. Таким образом, мы сравниваем только с предыдущей работой над набором данных VITON.

4.3 Количественная оценка

Количественное сравнение с современным состоянием затруднено. Сообщать о FID в других статьях бессмысленно, поскольку значение смещено, а смещение зависит от параметров используемой сети [9,37]. Мы используем оценку FID∞, которая является несмещенной. Мы не можем вычислить FID∞ для большинства других методов, поскольку результаты не опубликованы; фактически, последние методы (например, [15,53,24,24,42,22,2]) не выпустили реализацию. CP-VTON [45] имеет, и мы используем это в качестве точки сравнения.


Рис. 5. На рисунке сравниваются потеря L1 и потеря восприятия (предварительно обученный VGG19) на тестовом наборе в течение 200 эпох обучения, записываемых каждые 5 эпох. k=2 имеет наименьшую общую ошибку. Использование большого k ускоряет обучение на ранней стадии, но позже приводит к переобучению.


Большинство оценок являются качественными, а другие [24,37] также рассчитали оценку FID на исходном тестовом наборе VITON, который состоит всего из 2032 синтезированных пар. Из-за небольшого набора данных этот показатель FID не имеет смысла. Отклонение, возникающее в результате расчета, будет высоким, что приведет к большой погрешности оценки FID, что сделает ее неточной. Чтобы обеспечить точное сравнение, мы создали больший тестовый набор из 50 000 синтезированных пар путем случайного сопоставления, следуя процедуре оригинальной работы [17]. Мы создали новые наборы тестов, используя нашу модель сопоставления форм, выбрав 25 лучших ближайших соседей в пространстве встраивания фигур для каждого элемента исходного набора тестов. Мы создаем два набора данных, каждый из 50 000 пар, используя цветные изображения и изображения в оттенках серого для вычисления внедрения формы. Удаление оттенков серого говорит нам, учитывает ли встраивание формы цветовые особенности.


Количество деформаций выбирается путем вычисления ошибки L1 и ошибки восприятия (с использованием VGG19, предварительно обученного в ImageNet) с использованием деформаторов с разными k на тестовом наборе нашего набора данных. Здесь варпер оценивается путем сопоставления продукта с моделью, носящей этот продукт. Как показано на рисунке 5, k = 2 постоянно превосходит k = 1. Однако наличие более двух деформаций также снижает производительность при использовании текущей конфигурации обучения, возможно, из-за переобучения.


Мы выбираем β, обучая одну модель деформации с разными значениями β, используя 10% набора данных, а затем оценивая ее при тестировании. Таблица 1 показывает, что слишком большое или два малых значения β приводят к падению производительности. β = 3 оказывается лучшим и поэтому принимается. Качественное сравнение доступно в дополнительных материалах.



С помощью этих данных мы можем сравнить CP-VTON, наш метод, использующий одну деформацию (k = 1), две деформации (k = 2) и две смешанные деформации. Смешанная модель принимает в среднем две деформации вместо конкатенации. Результаты представлены в Таблице 4.3. Мы нашли:


– для всех методов выбор модели дает лучшие результаты;


– выбор между сопоставлением цвета и оттенков серого невелик, поэтому сопоставление в основном касается формы одежды;


– иметь двух сноваторов лучше, чем одного;


– объединение с u-net гораздо лучше, чем смешивание.


Мы считаем, что количественные результаты недооценивают улучшение от использования большего количества сновальных машин, поскольку количественные измерения являются относительно грубыми. Качественные данные подтверждают это (рис. 7).

4.4 Качественные результаты

Мы внимательно изучили соответствующие примеры в [15,24,53,37] для проведения качественных сравнений. Сравнение с MG-VTON [12] неприменимо, поскольку работа не включала ни одного качественного примера с фиксированной позой. Обратите внимание, что сравнение имеет преимущество перед предыдущей работой, поскольку наша модель обучается и тестируется только с использованием области, соответствующей предмету одежды на 2D-карте поз, тогда как в предыдущей работе используется полная 2D-карта поз и аннотации позы ключевых точек.


Как правило, перенос одежды представляет собой сложную задачу, но современные методы в настоящее время в основном не справляются с деталями. Это означает, что оценка передачи требует пристального внимания к деталям. На рисунке 6 показаны некоторые сравнения. В частности, внимание к деталям изображения вокруг границ, текстур и деталей одежды обнажает некоторые трудности в выполнении задачи. Как показано на рисунке 6 слева, наш метод может надежно обрабатывать сложную текстуру (столбцы a, c) и точно сохранять детали логотипа (столбцы b, e, f, g, i). Примеры также показывают четкую разницу между нашим методом, основанным на рисовании, и предыдущей работой — наш метод изменяет только область, где находится исходная ткань.


Таблица 2. В этой таблице сравнивается оценка FID∞ (чем меньше, тем лучше) между различными методами синтеза изображений на случайных парах и совпадающими парами с использованием нашей сети внедрения форм. Все значения в столбце. 1 значительно больше, чем у кол. 2 и 3, демонстрируя, что выбор совместимой пары значительно улучшает производительность наших методов и CP-VTON. Мы считаем, что это улучшение применимо и к другим методам, но код других еще не опубликован. Среди методов наш метод с двумя деформаторами значительно превосходит предыдущую работу на всех тестовых наборах. Выбор между сопоставлением цвета и оттенков серого невелик, что позволяет предположить, что процесс сопоставления фокусируется на форме одежды (как это и обучено). Использование двух деформаций (k = 2) показывает небольшое улучшение по сравнению с использованием одной деформации (k = 1), поскольку улучшения трудно уловить с помощью каких-либо количественных показателей. Разница более заметна на качественных примерах (рисунок 7). Важно использовать u-net для объединения деформаций; простое смешивание дает плохие результаты (последняя строка).


Рис. 6. Сравнение с CP VTON, ClothFlow, VTNFP и SieveNet в наборе данных VITON с использованием изображений, опубликованных для этих методов. Каждый блок показывает другой набор данных. Наши результаты находятся в строке 2, а результаты метода сравнения - в строке 3. Обратите внимание на CP-VTON по сравнению с нашим методом: затемняющие линии вырезов (b); совмещение полос (с); масштабирование трансферов (б); размазывание текстуры и размытие границ (а); и размытие трансферов (б). Обратите внимание на GarmentGAN по сравнению с нашим методом: искажение границы конечности (d); потеря контраста на цветах на талии (г); и строгое наложение псевдонимов при передаче (e). Обратите внимание на ClothFlow по сравнению с нашим методом: НЕ сглаживание полос (f); размытие рук (ж, ж); нечеткость анатомии (сухожилия ключицы и шеи, ж); изменение масштаба передачи (g). Обратите внимание на VTNFP по сравнению с нашим методом: неверные детали текстуры (цветы на вырезе и плечах, h); искажение трансферов (i). Обратите внимание на SieveNet по сравнению с нашим методом: размытие контуров (j, k); неправильное расположение манжет (k); искажение штриховки (рука на k). Лучше всего смотреть в цвете и в высоком разрешении.


представлено. Это свойство позволяет нам сохранить детали конечностей (цвета а, г, е, ж, з, к) и других предметов одежды (цвета а, б) лучше, чем большинство предыдущих работ. Некоторые из наших результатов (столбцы c, g) показывают цветовые артефакты исходной ткани на границе, поскольку край карты позы слегка смещен (несовершенная маска сегментации). Это подтверждает, что наш метод основан на мелкозернистой маске сегментации для получения высококачественного результата. Некоторые пары слегка не совпадают по форме (цвет d, h). С нашим методом это будет происходить редко, если тестовый набор создан с использованием внедрения формы. Поэтому наш метод не пытается решить эту проблему.


Две деформации явно лучше, чем одна (рис. 7), вероятно, потому, что вторая деформация может исправить выравнивание и детали, которые не удается учесть с помощью одной модели деформации. Особые улучшения касаются расстегнутой/расстегнутой верхней одежды и изображений товаров с бирками. Эти улучшения нелегко отразить количественной оценкой, поскольку различия в значениях пикселей невелики.


Рис. 7. На рисунках показано качественное сравнение k = 2 и k = 1. Примечание: кнопки не в том месте для одинарной деформации слева, исправлено для k = 2; неправильный масштаб кармана и проблемы с границами рукавов для одинарной основы слева по центру, исправлено для k = 2; сильно смещенная пуговица и окружающий ее короб в центре, зафиксированный для k = 2; неуместная этикетка на одежде в центре справа, зафиксированная для k = 2; еще одна неуместная этикетка на одежде справа, исправленная для k = 2.


Мы попытались обучить модуль геометрического сопоставления (с использованием преобразования TPS) для создания искажений в нашем наборе данных, как это часто применялось в предыдущих работах [17,45,11]. Однако преобразование TPS не смогло адаптироваться к перегородкам и значительным окклюзиям (примеры в дополнительных материалах).

4.5 Исследование пользователей

Мы использовали исследование пользователей, чтобы проверить, как часто пользователи могут идентифицировать синтезированные изображения. Пользователя спрашивают, является ли изображение модели в продукте (который показан) реальным или синтезированным. Дисплей использует максимально возможное разрешение (512x512), как показано на рисунке 8.


Мы использовали примеры, в которых маска хороша, что дает справедливое представление о 20 верхних процентилях наших результатов. Перед исследованием пользователям предлагаются две реальные и фальшивые пары. Затем каждый участник тестируется с 50 парами по 25 реальных и


Рис. 8. Два синтезированных изображения, которые 70% участников пользовательского исследования посчитали реальными. Обратите внимание, например, на штриховку, складки, даже на молнию и воротник.


Таблица 3. Результаты пользовательского исследования показывают, что участники с высокими трудностями различают реальные и синтезированные изображения. Толпы и исследователи считают 51,6% и 61,5% фейковых изображений реальными соответственно. Иногда некоторые реальные изображения также считаются фальшивыми, что позволяет предположить, что участники обратили внимание.


25 подделок, без повторяющихся товаров. Мы тестируем две группы пользователей (исследователи зрения и случайно выбранные участники).


Чаще всего пользователи обманываются нашими изображениями; существует очень высокий уровень ложноположительных результатов (т.е. синтезированного изображения, помеченного пользователем как реальное) (таблица 3). На рисунке 8 показаны два примера синтезированных изображений, которые 70% населения в целом назвали реальными. Это жесткие образцы верхней одежды с разделением областей и сложной штриховкой. Тем не менее, наш метод позволил обеспечить синтез высокого качества. См. дополнительные материалы по всем вопросам и полные результаты исследования пользователей.


Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.