Salut! Bienvenue sur 'Inside the Lab', le blog de recherche et d'ingénierie d' artlabs . Le sujet de cette semaine est de savoir comment le contenu 3D est représenté et géré par les méthodologies d'IA, comment l'IA utilise ces représentations pour la création de contenu 3D, ainsi que les avantages et les inconvénients de ces techniques.
Les modèles d'apprentissage automatique sont entraînés à l'aide de diverses représentations de contenu 3D telles que les voxels, les nuages de points, les champs de distance signés, les champs de rayonnement neuronal (NeRF), les maillages polygonaux… Nous parlerons des représentations de voxel, de nuage de points, de NeRF et de polygone dans cet article. Passons en revue ceux-ci, un par un.
Vous connaissez les éléments d'image (alias pixels) mais avez-vous déjà entendu parler des éléments de volume (alias voxels) ? Maintenant vous l'avez fait ! Les pixels sont représentés par des valeurs d'intensité de couleur rouge, verte et bleue avec une valeur d'opacité supplémentaire comprise entre 0 et 255 sur une grille 2D représentée par des coordonnées x et y. Les voxels sont également constitués de valeurs de rouge, de vert, de bleu et d'opacité sur une grille 3D. Les modèles d'IA visent à apprendre ces 4 valeurs pour chaque voxel afin de représenter efficacement la scène.
Les modèles d'apprentissage automatique tels que 3D-R2N2 (2016), Pix2Vox / ++ (2019/2020) et EVoIT (2021) tirent parti de la simplicité de la représentation du voxel et utilisent des images à vues multiples d'un objet pour reconstruire cet objet en tant que voxel grille.
Les voxels sont bons si vous voulez représenter des formes cubiques. Comme il existe du pixel art, il existe également de l'art 3D basé sur des voxels. De plus, qui ne veut pas générer des mondes de type Minecraft ?! Les métaverses comme Sandbox utilisent également des représentations de voxel, et la création de voxel basée sur l'IA peut également aider à les améliorer.
Eh bien, vous l'avez deviné : les nuages de points sont des nuages formés de points colorés dans l'espace 3D. Contrairement aux voxels, ils ne sont pas contenus dans une grille, vous pouvez donc mieux représenter une plus large gamme d'objets avec des nuages de points. Cependant, comme il n'y a pas de grille, vous devez également considérer la position de chaque point dans l'espace 3D. Cela signifie que vous devez conserver plus de données par rapport aux voxels pour chaque point de données.
Des modèles tels que Point-E (2022) d'OpenAI ont démontré leur succès dans la création de contenu 3D basée sur un nuage de points. Cependant, comme pour tout ce qui est bon dans le monde, les nuages de points ont leurs avantages et leurs inconvénients.
Les nuages de points sont en fait largement utilisés dans plusieurs industries. Ils peuvent être acquis par des LiDAR installés sur des drones ou des voitures intelligentes. On peut créer des objets et des environnements de nuage de points avec l'IA à utiliser dans les simulations pour améliorer les algorithmes qui sont exécutés pour de meilleurs véhicules sans conducteur. De plus, ils sont également utilisés en imagerie médicale. La création de nuages de points médicaux basée sur l'IA peut également améliorer la détection des maladies et des traumatismes physiques chez les patients.
Étant donné un ensemble d'images et les informations de pose de caméra correspondantes, un NeRF peut reconstruire une scène 3D en découvrant à quoi correspond chaque pixel d'une image dans l'espace 3D. Une fois la scène reconstruite, un NeRF peut fournir une vue 3D complète d'une scène, même sous des angles invisibles. De plus, la représentation elle-même est IA ! Fondamentalement, il s'agit d'un réseau de neurones qui contient toutes les informations nécessaires au rendu d'une scène 3D. La scène est représentée dans le réseau neuronal et lorsqu'il est interrogé avec une nouvelle pose de caméra, le réseau neuronal peut répondre avec un nouveau rendu de cette vue. Alors que le réseau NeRF d'origine devait être formé pendant des heures (des jours à certaines occasions), plusieurs nouvelles variantes NeRF peuvent reconstruire une scène 3D de haute qualité en quelques secondes seulement.
Les champs de rayonnement neuronal peuvent rendre des scènes sous n'importe quel angle, et ils peuvent potentiellement être largement utilisés par les arts cinématographiques. Il est bien connu que l'angle et le mouvement de la caméra sont très importants en cinématographie, et les NeRF peuvent créer des rendus à partir d'angles avec lesquels un caméraman pourrait avoir des problèmes.
Les maillages polygonaux sont constitués de points (à savoir, des sommets), de lignes qui relient ces points les uns aux autres (à savoir, des arêtes) et de polygones qui sont construits entre ces arêtes. Les sommets sont représentés par leurs coordonnées ; les arêtes sont représentées par les sommets auxquels elles se connectent, et les polygones sont représentés par les arêtes sur lesquelles ils sont construits. De plus, il existe plusieurs façons de représenter la couleur sur les maillages, allant de la simple coloration de chaque sommet avec des valeurs d'intensité rouge, verte et bleue à la décision de la manière dont cette couleur interagira avec une lumière donnée en fournissant des propriétés matérielles telles que la diffusion, la spécularité, l'opacité, la réfraction. index, normales de surface, etc.
Des méthodes telles que NVDiffrec-MC (2022) peuvent déduire un triplet maillage, lumière et matériau en utilisant des ensembles d'images. Dernièrement, de nombreuses autres méthodes ont été développées pour reconstruire des maillages et des textures à partir d'entrées de texte ou d'image : GET3D , DreamFusion , Score Jacobian Chaining , Magic3D …
Les maillages polygonaux sont déjà utilisés dans les jeux, les arts cinématographiques, Web3 et XR. De nombreuses industries comme le commerce électronique bénéficient grandement des maillages polygonaux en visualisant leurs produits en 3D. En créant du contenu avec l'IA, toutes ces industries peuvent générer du contenu à grande échelle et impressionner leur public.
Chez artlabs , nous utilisons toutes ces représentations et l'IA dans différentes sections de notre pipeline. Découvrez comment artlabs utilise l'IA pour créer du contenu à grande échelle ici .
Merci d'avoir lu! Rendez-vous dans le prochain post de « Inside the Lab » 👋🏻
Auteur : Doğancan Kebude , Responsable R&D chez artlabs