¡Hola! Bienvenido a 'Inside the Lab', el blog de investigación e ingeniería de artlabs . El tema de esta semana es cómo las metodologías de IA representan y manejan el contenido 3D, cómo la IA utiliza estas representaciones para la creación de contenido 3D, así como las ventajas y desventajas de estas técnicas.
Los modelos de aprendizaje automático se entrenan utilizando varias representaciones de contenido 3D, como vóxeles, nubes de puntos, campos de distancia firmados, campos de radiación neuronal (NeRF), mallas poligonales... Hablaremos sobre representaciones de vóxeles, nubes de puntos, NeRF y polígonos en esta publicación. Repasemos estos, uno por uno.
Conoces los elementos de imagen (también conocidos como píxeles), pero ¿alguna vez has oído hablar de los elementos de volumen (también conocidos como vóxeles)? ¡Ahora lo hiciste! Los píxeles se representan como valores de intensidad de color rojo, verde y azul con un valor de opacidad adicional entre 0 y 255 en una cuadrícula 2D representada por coordenadas x e y. Los vóxeles, de manera similar, consisten en valores de rojo, verde, azul y opacidad en una cuadrícula 3D. Los modelos de IA tienen como objetivo aprender estos 4 valores para cada vóxel para representar la escena de manera eficiente.
Los modelos de aprendizaje automático como 3D-R2N2 (2016), Pix2Vox / ++ (2019/2020) y EVoIT (2021) aprovechan la simplicidad de la representación de vóxeles y utilizan imágenes de múltiples vistas de un objeto para reconstruir ese objeto como un vóxel. red.
Los vóxeles son muy buenos si quieres representar formas cúbicas. Así como existe el pixel art, también existe el 3D basado en voxels. Además, ¿quién no quiere generar mundos tipo Minecraft ? Los metaversos como Sandbox también utilizan representaciones de vóxeles, y la creación de vóxeles basada en IA también puede ayudar a mejorarlas.
Bueno, lo has adivinado: las nubes de puntos son nubes formadas por puntos de colores en el espacio 3D. A diferencia de los vóxeles, no están contenidos dentro de una cuadrícula, por lo que puede representar mejor una gama más amplia de objetos con nubes de puntos. Sin embargo, dado que no hay cuadrícula, también debe considerar la posición de cada punto en el espacio 3D. Esto significa que necesita conservar más datos en comparación con los vóxeles para cada punto de datos.
Modelos como Point-E (2022) de OpenAI han demostrado tener éxito en la creación de contenido 3D basado en nubes de puntos. Sin embargo, como todo lo bueno en el mundo, las nubes de puntos tienen sus ventajas y desventajas.
Las nubes de puntos se usan ampliamente en varias industrias. Pueden ser adquiridos por LiDAR instalados en drones o autos inteligentes. Se pueden crear entornos y objetos de nube de puntos con IA para utilizarlos en simulaciones a fin de mejorar los algoritmos que se ejecutan para mejorar los vehículos sin conductor. Además, también se utilizan en imágenes médicas. La creación basada en IA de nubes de puntos médicos también puede mejorar la detección de enfermedades y traumas físicos en los pacientes.
Dado un conjunto de imágenes y la información correspondiente de la pose de la cámara, un NeRF puede reconstruir una escena 3D al descubrir dónde corresponde cada píxel de una imagen en el espacio 3D. Una vez que se reconstruye la escena, un NeRF puede proporcionar una vista 3D completa de una escena, incluso desde ángulos invisibles. ¡Además, la representación en sí es AI! Básicamente, es una red neuronal que contiene toda la información necesaria para renderizar una escena 3D. La escena se representa dentro de la red neuronal y cuando se le consulta con una nueva pose de cámara, la red neuronal puede responder con una nueva representación de esa vista. Si bien la red NeRF original tuvo que entrenarse durante horas (días en algunas ocasiones), varias variantes novedosas de NeRF pueden reconstruir una escena 3D de alta calidad en cuestión de segundos.
Los campos de radiación neuronal pueden renderizar escenas desde cualquier ángulo, y potencialmente pueden ser utilizados ampliamente por las artes cinematográficas. Es ampliamente conocido que el ángulo y el movimiento de la cámara son muy importantes en la cinematografía, y los NeRF pueden crear renderizados desde ángulos con los que un camarógrafo podría tener problemas.
Las mallas poligonales constan de puntos (es decir, vértices), líneas que conectan estos puntos entre sí (es decir, bordes) y polígonos que se construyen entre estos bordes. Los vértices están representados por sus coordenadas; los bordes se representan por los vértices que conectan, y los polígonos se representan por los bordes sobre los que se construyen. Además, existen múltiples formas de representar el color en mallas que van desde simplemente colorear cada vértice con valores de intensidad de rojo, verde y azul hasta decidir cómo ese color interactuará con cualquier luz dada al proporcionar propiedades materiales como difusión, especularidad, opacidad, refracción. índice, normales de superficie, etc.
Métodos como NVDiffrec-MC (2022) pueden inferir un triplete de malla, luz y material utilizando conjuntos de imágenes. Últimamente, se han desarrollado muchos más métodos para reconstruir mallas y texturas a partir de entradas de texto o imágenes: GET3D , DreamFusion , Score Jacobian Chaining , Magic3D …
Las mallas poligonales ya se utilizan en juegos, artes cinematográficas, Web3 y XR. Muchas industrias, como el comercio electrónico, se benefician enormemente de las mallas poligonales al visualizar sus productos en 3D. Mediante la creación de contenido con IA, todas estas industrias pueden generar contenido a escala y asombrar a su audiencia.
En artlabs , utilizamos todas estas representaciones e IA en diferentes secciones de nuestra tubería. Vea más sobre cómo artlabs utiliza la IA para crear contenido a escala aquí .
¡Gracias por leer! Nos vemos en la próxima publicación de “Inside the Lab” 👋🏻
Autor: Doğancan Kebude , líder de I+D en artlabs