Авторы:
(1) Хун Ким, Beeble AI, внесшие равный вклад в эту работу;
(2) Миндже Джанг, Beeble AI, внесшие равный вклад в эту работу;
(3) Вонджун Юн, Beeble AI, внесший равный вклад в эту работу;
(4) Джису Ли, Beeble AI, внесшие равный вклад в эту работу;
(5) Донхён На, Beeble AI, внесли равный вклад в эту работу;
(6) Санхён У, Нью-Йоркский университет, внес равный вклад в эту работу.
Примечание редактора: Это часть 1 из 14 исследования, в котором представлен метод улучшения того, как свет и тени могут быть применены к портретам людей в цифровых изображениях. Прочитайте остальную часть ниже.
Приложение
Мы представляем совместно разработанный подход к переосвещению портрета человека, который объединяет архитектуру, управляемую физикой, с фреймворком предварительной подготовки. Опираясь на модель отражения Кука-Торранса, мы тщательно настроили архитектурный дизайн для точной имитации взаимодействия света с поверхностью. Кроме того, чтобы преодолеть ограничение дефицитных высококачественных данных световой сцены, мы разработали стратегию самоконтролируемой предварительной подготовки. Эта новая комбинация точного физического моделирования и расширенного набора данных обучения устанавливает новый стандарт в реализме повторного освещения.
Переосвещение — это больше, чем эстетический инструмент; оно открывает бесконечные возможности повествования и обеспечивает бесшовную интеграцию субъектов в различные среды (см. рис. 1). Это достижение резонирует с нашим врожденным желанием выйти за рамки физических ограничений пространства и времени, а также предоставляет ощутимые решения практических задач в создании цифрового контента. Оно особенно преобразующе в приложениях виртуальной (VR) и дополненной реальности (AR), где переосвещение облегчает адаптацию освещения в реальном времени, гарантируя, что пользователи и цифровые элементы будут естественно сосуществовать в любой среде, предлагая новый уровень телеприсутствия.
В этой работе мы сосредоточились на переосвещении портрета человека. Хотя задача переосвещения принципиально требует глубокого понимания геометрии, свойств материалов и освещения, проблема усложняется при работе с людьми из-за уникальных характеристик поверхностей кожи, а также разнообразных текстур и отражательных свойств широкого спектра одежды, причесок и аксессуаров. Эти элементы взаимодействуют сложным образом, что требует использования передовых алгоритмов, способных имитировать тонкое взаимодействие света с этими разнообразными поверхностями.
В настоящее время наиболее перспективным подходом является использование глубоких нейронных сетей, обученных на парах высококачественных релитированных портретных изображений и их соответствующих внутренних атрибутов, которые поступают из световой сцены [10]. Первоначальные усилия подходили к процессу повторного освещения как к «черному ящику» [45, 48], без углубления в базовые механизмы. Более поздние достижения приняли дизайн модели, управляемой физикой, включающей явное моделирование внутренних характеристик изображения и физику формирования изображения [32]. Пандей и др. [34] предложили архитектуру Total Relight (TR), также управляемую физикой, которая разлагает входное изображение на нормали поверхности и карты альбедо и выполняет повторное освещение на основе модели зеркального отражения Фонга. Архитектура TR стала основополагающей моделью для повторного освещения изображения, и большинство последних и передовых архитектур построены на ее принципе [23, 31, 52].
Следуя подходу, основанному на физике, наш вклад заключается в совместном проектировании архитектуры с самоконтролируемой структурой предварительного обучения. Во-первых, наша архитектура развивается в направлении более точной физической модели путем интеграции модели зеркального отражения Кука-Торранса [8], что представляет собой заметный прогресс по сравнению с эмпирической моделью зеркального отражения Фонга [37], используемой в архитектуре Total Relight. Модель Кука-Торранса умело имитирует взаимодействие света с микрогранями поверхности, учитывая пространственно изменяющуюся шероховатость и отражательную способность. Во-вторых, наша структура предварительного обучения масштабирует процесс обучения за пределы обычно труднодоступных данных световой сцены. Пересматривая структуру маскированного автоэнкодера (MAE) [19], мы адаптируем ее для задачи повторного освещения. Эти модификации созданы для решения уникальных проблем, возникающих при этой задаче, позволяя нашей модели обучаться на немаркированных данных и совершенствовать ее способность создавать реалистичные портреты с повторным освещением во время тонкой настройки. Насколько нам известно, это первый случай применения самостоятельной предварительной подготовки специально для задачи повторного включения.
Подводя итог, можно сказать, что наш вклад двоякий. Во-первых, улучшив физическую модель отражения, мы ввели новый уровень реализма в выходных данных. Во-вторых, приняв самоконтролируемое обучение, мы расширили масштаб обучающих данных и улучшили выражение освещения в различных реальных сценариях. В совокупности эти достижения привели фреймворк SwitchLight к достижению нового уровня искусства в переосвещении портретов людей.
Данная статья доступна на arxiv по лицензии CC BY-NC-SA 4.0 DEED.