L'IA devient plus intelligente, les amis. Fini le temps où l'intelligence artificielle ne pouvait traiter que
Je suis tombé sur ce projet audacieux via un
Alors, naturellement, je me suis senti obligé de plonger profondément dans le
Alors, qu'est-ce que CoDi a de si spécial ? Tout d'abord, cette centrale d'IA est plus polyvalente que n'importe quel modèle génératif que nous avons vu jusqu'à présent. Il n'est pas lié à des modalités spécifiques telles que l'image à l'image ou le texte à texte. Oh non, CoDi est un esprit libre, car c'est un modèle "any-to-any".
Ce mauvais garçon prend tout ce que vous lui donnez - langage, image, vidéo, audio - et le transmute en une modalité différente.
Des chercheurs de l'Université de Caroline du Nord à Chapel Hill et de Microsoft Azure Cognitive Services Research ont conçu CoDi non seulement pour gérer plusieurs modalités à la fois, mais également pour générer des sorties qui ne figurent même pas dans les données de formation d'origine.
Maintenant, c'est ce qu'on appelle frapper au-dessus de votre poids.
Ce qui est encore plus cool, c'est que tout cela est rendu possible par une nouvelle stratégie de génération composable, permettant la génération synchronisée de modalités entrelacées. Imaginez une vidéo avec un son parfaitement synchronisé produit par une machine qui ne fait que deviner comment ils s'emboîtent.
C'est comme une sorte d'artiste de remix IA.
Pour ceux qui ont soif de détails techniques, CoDi utilise un programme de formation en plusieurs étapes, ce qui signifie qu'il peut s'entraîner sur une variété de tâches tout en déduisant toutes sortes de combinaisons d'entrées et de sorties. C'est comme s'il avait la capacité d'effectuer plusieurs tâches.
L'utilité du modèle est démontrée dans son architecture. La section suivante est un résumé quelque peu technique des principales méthodes utilisées par les créateurs pour que le modèle fonctionne comme ils le souhaitaient.
Le fondement de CoDi est un modèle de diffusion, en particulier un modèle de diffusion latente (MLD). Cette forme d'IA générative apprend les distributions de données en imitant la diffusion des informations dans le temps.
Pendant la formation, il ajoute continuellement du bruit aléatoire aux données d'entrée, apprenant à inverser ce processus et à nettoyer les données à leur forme d'origine. Lorsqu'il génère de nouvelles données, il prend un simple bruit et le débruite pour produire quelque chose qui ressemble aux données d'apprentissage.
Dans le cas de LDM, un auto-encodeur - un type de modèle d'IA qui peut recréer son entrée - est utilisé pour compresser les données sous une forme « latente » plus petite, qui est ensuite diffusée au fil du temps. Ce processus réduit considérablement le coût de calcul et améliore l'efficacité du modèle.
L'originalité de CoDi réside dans son conditionnement multimodal composable. Ce composant lui permet d'accepter n'importe quelle combinaison de modalités (texte, image, vidéo et audio) comme entrées.
Ceci est réalisé en alignant l'entrée de toutes ces modalités dans le même espace, qui peut être commodément conditionné en interpolant leurs représentations.
Pour assurer des opérations de calcul efficaces, une technique simple appelée "Bridging Alignment" est utilisée. Le texte est choisi comme modalité "de pont" car il est généralement associé à d'autres modalités, telles que les paires texte-image, texte-vidéo et texte-audio.
Cette méthode permet au modèle d'aligner les quatre modalités dans l'espace des caractéristiques, même lorsque les modalités doubles telles que les paires image-audio sont rares.
La formation d'un modèle capable de transformer n'importe quelle entrée en n'importe quelle sortie est une tâche exigeante nécessitant un apprentissage substantiel sur diverses ressources de données.
Pour faire face à cela, CoDi est conçu pour être composable et intégratif, ce qui signifie que des modèles individuels pour chaque modalité peuvent être construits indépendamment, puis intégrés en douceur plus tard.
Par exemple, un modèle de diffusion d'images peut être utilisé pour transférer les connaissances et la fidélité de génération d'un modèle établi formé sur des ensembles de données d'images à grande échelle et de haute qualité.
De même, un modèle de diffusion vidéo peut étendre le diffuseur d'images avec des modules temporels pour modéliser les propriétés temporelles des vidéos.
De plus, le diffuseur audio visualise le
La dernière pièce du puzzle est de permettre à ces modèles formés indépendamment de travailler ensemble pour générer plusieurs modalités simultanément. Ceci est réalisé en ajoutant des sous-couches d'attention intermodales au modèle.
Cette technique "d'alignement latent" permet à chaque modèle spécifique à une modalité de prêter attention aux autres, projetant leurs variables latentes dans un espace partagé auquel ils peuvent tous accéder.
Cette conception permet la génération de joints sans soudure de n'importe quelle combinaison de modalités. Par exemple, même s'il n'est formé qu'à la génération conjointe des modalités A et B, et B et C, CoDi peut réaliser la génération conjointe des modalités A et C sans aucune formation supplémentaire !
De plus, il peut gérer la génération conjointe des modalités A, B et C simultanément. Cette polyvalence est possible car le modèle a appris à intervenir entre différentes modalités.
Essentiellement, grâce à ces méthodes, CoDi peut apprendre efficacement à convertir toute forme d'entrée en toute autre forme de sortie, en maintenant une qualité de génération élevée pour tous les flux de synthèse. En conséquence, cela ouvre un tout nouveau domaine de possibilités pour les interactions multimodales de l'IA.
Par exemple, fournissez à CoDi l'entrée de texte "Ours en peluche sur une planche à roulettes, 4k, haute résolution", et il peut produire une vidéo avec le son qui l'accompagne. Ou alimentez-le en texte et en image avec "Cyberpunk vibe", et il peut générer du texte et une image correspondant au thème donné.
Des exemples de générations sont présentés ci-dessous -
Les implications de la génération any-to-any de CoDi sont vastes. Dans un monde qui devient de plus en plus numérique, avoir un outil comme CoDi signifie être capable d'interagir avec la technologie d'une manière encore plus polyvalente, naturelle et humaine. Cela pourrait tout transformer, des assistants virtuels aux outils de création de contenu et d'accessibilité au divertissement.
Mais comme toujours, les implications ne sont pas purement utopiques. Alors que l'IA devient plus performante pour générer des sorties multimodales réalistes, la nécessité de distinguer le contenu réel du contenu généré par l'IA devient de plus en plus cruciale. La désinformation pourrait devenir plus convaincante et les deepfakes plus répandus.
Mais ne pleuvons pas sur le défilé. CoDi est un pas en avant significatif dans la technologie de l'IA, montrant à quel point nous avons progressé dans la formation des machines pour comprendre et recréer la riche tapisserie de la communication humaine.
Si vous souhaitez approfondir les mécanismes de CoDi, ou peut-être même l'expérimenter vous-même, vous pouvez consulter l'open-source
En fin de compte, ce qui rend CoDi vraiment révolutionnaire, c'est sa capacité à mélanger de manière transparente différents types de données et à générer des sorties d'une manière qui était auparavant considérée comme impossible. C'est comme regarder un alchimiste au travail transformer le plomb en or.
Sauf dans ce cas, il transforme n'importe quel type d'entrée en n'importe quel type de sortie. C'est vraiment une ère remarquable de l'IA dans laquelle nous vivons.