paint-brush
Un nuevo marco de trabajo de los investigadores de Beeble promete aportar un brillo realista a los retratos digitales mediante inteligencia artificialpor@autoencoder
Nueva Historia

Un nuevo marco de trabajo de los investigadores de Beeble promete aportar un brillo realista a los retratos digitales mediante inteligencia artificial

Demasiado Largo; Para Leer

Los investigadores de Beeble AI han desarrollado un método para mejorar la forma en que se pueden aplicar la luz y las sombras a los retratos humanos en imágenes digitales.
featured image - Un nuevo marco de trabajo de los investigadores de Beeble promete aportar un brillo realista a los retratos digitales mediante inteligencia artificial
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

Autores:

(1) Hoon Kim, Beeble AI, y contribuyeron igualmente a este trabajo;

(2) Minje Jang, Beeble AI, y contribuyeron igualmente a este trabajo;

(3) Wonjun Yoon, Beeble AI, y contribuyeron igualmente a este trabajo;

(4) Jisoo Lee, Beeble AI, y contribuyeron igualmente a este trabajo;

(5) Donghyun Na, Beeble AI, y contribuyeron igualmente a este trabajo;

(6) Sanghyun Woo, Universidad de Nueva York, y contribuyó igualmente a este trabajo.

Nota del editor: Esta es la parte 1 de 14 de un estudio que presenta un método para mejorar la forma en que se pueden aplicar la luz y las sombras a los retratos humanos en imágenes digitales. Lea el resto a continuación.

Tabla de enlaces


Apéndice


Figura 1. Esté en cualquier lugar y en cualquier momento. SwitchLight procesa un retrato humano descomponiéndolo en componentes intrínsecos detallados y vuelve a renderizar la imagen bajo una iluminación específica, lo que garantiza una composición perfecta del sujeto en cualquier entorno nuevo.

Abstracto

Presentamos un enfoque de diseño conjunto para la reiluminación de retratos humanos que combina una arquitectura guiada por la física con un marco de preentrenamiento. Basándonos en el modelo de reflectancia de Cook-Torrance, hemos configurado meticulosamente el diseño de la arquitectura para simular con precisión las interacciones entre la luz y la superficie. Además, para superar la limitación de los escasos datos de alta calidad del escenario de iluminación, hemos desarrollado una estrategia de preentrenamiento autosupervisada. Esta novedosa combinación de modelado físico preciso y un conjunto de datos de entrenamiento ampliado establece un nuevo punto de referencia en el realismo de la reiluminación.

1. Introducción

La reiluminación es más que una herramienta estética: abre posibilidades narrativas infinitas y permite la integración perfecta de sujetos en entornos diversos (véase la figura 1). Este avance está en sintonía con nuestro deseo innato de trascender las limitaciones físicas del espacio y el tiempo, a la vez que proporciona soluciones tangibles a los desafíos prácticos de la creación de contenido digital. Es especialmente transformador en aplicaciones de realidad virtual (RV) y aumentada (RA), donde la reiluminación facilita la adaptación en tiempo real de la iluminación, asegurando que los usuarios y los elementos digitales coexistan de forma natural en cualquier entorno, ofreciendo un nivel superior de telepresencia.


En este trabajo, nos centramos en la reiluminación de retratos humanos. Si bien la tarea de reiluminación exige fundamentalmente un conocimiento profundo de la geometría, las propiedades de los materiales y la iluminación, el desafío es aún mayor cuando se trata de sujetos humanos, debido a las características únicas de las superficies de la piel, así como a las diversas texturas y propiedades de reflectancia de una amplia gama de prendas, peinados y accesorios. Estos elementos interactúan de formas complejas, lo que requiere algoritmos avanzados capaces de simular la interacción sutil de la luz con estas superficies variadas.


Actualmente, el enfoque más prometedor implica el uso de redes neuronales profundas entrenadas en pares de imágenes de retratos reiluminados de alta calidad y sus atributos intrínsecos correspondientes, que se obtienen de una configuración de escenario de luz [10]. Los esfuerzos iniciales abordaron el proceso de reiluminación como una "caja negra" [45, 48], sin ahondar en los mecanismos subyacentes. Los avances posteriores adoptaron un diseño de modelo guiado por la física, incorporando el modelado explícito de los intrínsecos de la imagen y la física de formación de imágenes [32]. Pandey et al. [34] propusieron la arquitectura Total Relight (TR), también guiada por la física, que descompone una imagen de entrada en normales de superficie y mapas de albedo, y realiza la reiluminación según el modelo de reflectancia especular de Phong. La arquitectura TR se ha convertido en un modelo fundamental para la reiluminación de imágenes, y las arquitecturas más recientes y avanzadas se basan en su principio [23, 31, 52].


Siguiendo el enfoque guiado por la física, nuestra contribución radica en un diseño conjunto de la arquitectura con un marco de preentrenamiento autosupervisado. En primer lugar, nuestra arquitectura evoluciona hacia un modelo físico más preciso al integrar el modelo de reflectancia especular de Cook-Torrance [8], lo que representa un avance notable con respecto al modelo especular empírico de Phong [37] empleado en la arquitectura Total Relight. El modelo de Cook-Torrance simula hábilmente las interacciones de la luz con las microfacetas de la superficie, teniendo en cuenta la rugosidad y la reflectividad que varían espacialmente. En segundo lugar, nuestro marco de preentrenamiento escala el proceso de aprendizaje más allá de los datos de la etapa de luz, que suelen ser difíciles de obtener. Al revisar el marco del autocodificador enmascarado (MAE) [19], lo adaptamos a la tarea de reiluminación. Estas modificaciones están diseñadas para abordar los desafíos únicos que plantea esta tarea, lo que permite que nuestro modelo aprenda de los datos no etiquetados y refine su capacidad para producir retratos realistas reiluminados durante el ajuste fino. Hasta donde sabemos, esta es la primera vez que se aplica un entrenamiento previo autosupervisado específicamente a la tarea de reencendido.


En resumen, nuestra contribución es doble. En primer lugar, al mejorar el modelo de reflectancia física, hemos introducido un nuevo nivel de realismo en el resultado. En segundo lugar, al adoptar el aprendizaje autosupervisado, hemos ampliado la escala de los datos de entrenamiento y mejorado la expresión de la iluminación en diversos escenarios del mundo real. En conjunto, estos avances han llevado al marco SwitchLight a lograr un nuevo estado del arte en la reiluminación de retratos humanos.


Este artículo está disponible en arxiv bajo la licencia CC BY-NC-SA 4.0 DEED.