2,535 lectures

Cette IA peut traduire n'importe quelle entrée en n'importe quelle sortie : voici pourquoi c'est un gros problème

par Mike Young6m2023/05/27

Trop long; Pour lire

CoDi est un modèle génératif qui change la donne et qui peut gérer un ensemble varié d'intrants. Il peut gérer du texte, de l'audio, de la vidéo, des images et les transmuter en toute autre combinaison de sorties. CoDi utilise un programme de formation en plusieurs étapes, ce qui signifie qu'il peut s'entraîner sur une variété de tâches.

featured image - Cette IA peut traduire n'importe quelle entrée en n'importe quelle sortie : voici pourquoi c'est un gros problème

L'IA devient plus intelligente, les amis. Fini le temps où l'intelligence artificielle ne pouvait traiter que un seul type d'entrée et cracher un seul type de sortie . C'est l'ère de CoDi : un modèle génératif révolutionnaire qui peut gérer un ensemble d'entrées (texte, audio, vidéo, images) et les transformer en toute autre combinaison de sorties.

Je suis tombé sur ce projet audacieux via un tweeter par Avi Schiffmann, un passionné d'IA dont la curiosité ne connaît pas de limites.

Alors, naturellement, je me suis senti obligé de plonger profondément dans le papier qui détaille cette percée passionnante. Accrochez-vous, car c'est une course folle.

Bienvenue à la fête, CoDi

Alors, qu'est-ce que CoDi a de si spécial ? Tout d'abord, cette centrale d'IA est plus polyvalente que n'importe quel modèle génératif que nous avons vu jusqu'à présent. Il n'est pas lié à des modalités spécifiques telles que l'image à l'image ou le texte à texte. Oh non, CoDi est un esprit libre, car c'est un modèle "any-to-any".

Ce mauvais garçon prend tout ce que vous lui donnez - langage, image, vidéo, audio - et le transmute en une modalité différente.

Des chercheurs de l'Université de Caroline du Nord à Chapel Hill et de Microsoft Azure Cognitive Services Research ont conçu CoDi non seulement pour gérer plusieurs modalités à la fois, mais également pour générer des sorties qui ne figurent même pas dans les données de formation d'origine.

Maintenant, c'est ce qu'on appelle frapper au-dessus de votre poids.

Ce qui est encore plus cool, c'est que tout cela est rendu possible par une nouvelle stratégie de génération composable, permettant la génération synchronisée de modalités entrelacées. Imaginez une vidéo avec un son parfaitement synchronisé produit par une machine qui ne fait que deviner comment ils s'emboîtent.

C'est comme une sorte d'artiste de remix IA.

Mais comment ça fonctionne?

Pour ceux qui ont soif de détails techniques, CoDi utilise un programme de formation en plusieurs étapes, ce qui signifie qu'il peut s'entraîner sur une variété de tâches tout en déduisant toutes sortes de combinaisons d'entrées et de sorties. C'est comme s'il avait la capacité d'effectuer plusieurs tâches.

L'utilité du modèle est démontrée dans son architecture. La section suivante est un résumé quelque peu technique des principales méthodes utilisées par les créateurs pour que le modèle fonctionne comme ils le souhaitaient.

Préliminaire : modèle de diffusion latente

Le fondement de CoDi est un modèle de diffusion, en particulier un modèle de diffusion latente (MLD). Cette forme d'IA générative apprend les distributions de données en imitant la diffusion des informations dans le temps.

Pendant la formation, il ajoute continuellement du bruit aléatoire aux données d'entrée, apprenant à inverser ce processus et à nettoyer les données à leur forme d'origine. Lorsqu'il génère de nouvelles données, il prend un simple bruit et le débruite pour produire quelque chose qui ressemble aux données d'apprentissage.

Dans le cas de LDM, un auto-encodeur - un type de modèle d'IA qui peut recréer son entrée - est utilisé pour compresser les données sous une forme « latente » plus petite, qui est ensuite diffusée au fil du temps. Ce processus réduit considérablement le coût de calcul et améliore l'efficacité du modèle.

Conditionnement multimodal composable

L'originalité de CoDi réside dans son conditionnement multimodal composable. Ce composant lui permet d'accepter n'importe quelle combinaison de modalités (texte, image, vidéo et audio) comme entrées.

Ceci est réalisé en alignant l'entrée de toutes ces modalités dans le même espace, qui peut être commodément conditionné en interpolant leurs représentations.

Pour assurer des opérations de calcul efficaces, une technique simple appelée "Bridging Alignment" est utilisée. Le texte est choisi comme modalité "de pont" car il est généralement associé à d'autres modalités, telles que les paires texte-image, texte-vidéo et texte-audio.

Cette méthode permet au modèle d'aligner les quatre modalités dans l'espace des caractéristiques, même lorsque les modalités doubles telles que les paires image-audio sont rares.

Diffusion composable

La formation d'un modèle capable de transformer n'importe quelle entrée en n'importe quelle sortie est une tâche exigeante nécessitant un apprentissage substantiel sur diverses ressources de données.

Pour faire face à cela, CoDi est conçu pour être composable et intégratif, ce qui signifie que des modèles individuels pour chaque modalité peuvent être construits indépendamment, puis intégrés en douceur plus tard.

Par exemple, un modèle de diffusion d'images peut être utilisé pour transférer les connaissances et la fidélité de génération d'un modèle établi formé sur des ensembles de données d'images à grande échelle et de haute qualité.

De même, un modèle de diffusion vidéo peut étendre le diffuseur d'images avec des modules temporels pour modéliser les propriétés temporelles des vidéos.

De plus, le diffuseur audio visualise le spectrogramme mel de l'audio sous forme d'image avec un canal, et un modèle de diffusion de texte utilise un auto-encodeur variationnel pour compresser les données textuelles dans une forme latente plus petite, comme les autres modèles.

Génération multimodale conjointe par alignement latent

La dernière pièce du puzzle est de permettre à ces modèles formés indépendamment de travailler ensemble pour générer plusieurs modalités simultanément. Ceci est réalisé en ajoutant des sous-couches d'attention intermodales au modèle.

Cette technique "d'alignement latent" permet à chaque modèle spécifique à une modalité de prêter attention aux autres, projetant leurs variables latentes dans un espace partagé auquel ils peuvent tous accéder.

Cette conception permet la génération de joints sans soudure de n'importe quelle combinaison de modalités. Par exemple, même s'il n'est formé qu'à la génération conjointe des modalités A et B, et B et C, CoDi peut réaliser la génération conjointe des modalités A et C sans aucune formation supplémentaire !

De plus, il peut gérer la génération conjointe des modalités A, B et C simultanément. Cette polyvalence est possible car le modèle a appris à intervenir entre différentes modalités.

Essentiellement, grâce à ces méthodes, CoDi peut apprendre efficacement à convertir toute forme d'entrée en toute autre forme de sortie, en maintenant une qualité de génération élevée pour tous les flux de synthèse. En conséquence, cela ouvre un tout nouveau domaine de possibilités pour les interactions multimodales de l'IA.

Par exemple, fournissez à CoDi l'entrée de texte "Ours en peluche sur une planche à roulettes, 4k, haute résolution", et il peut produire une vidéo avec le son qui l'accompagne. Ou alimentez-le en texte et en image avec "Cyberpunk vibe", et il peut générer du texte et une image correspondant au thème donné.

Des exemples de générations sont présentés ci-dessous - vérifier le papier pour des exemples interactifs.

Qu'est ce que cela veut dire pour nous?

Les implications de la génération any-to-any de CoDi sont vastes. Dans un monde qui devient de plus en plus numérique, avoir un outil comme CoDi signifie être capable d'interagir avec la technologie d'une manière encore plus polyvalente, naturelle et humaine. Cela pourrait tout transformer, des assistants virtuels aux outils de création de contenu et d'accessibilité au divertissement.

Mais comme toujours, les implications ne sont pas purement utopiques. Alors que l'IA devient plus performante pour générer des sorties multimodales réalistes, la nécessité de distinguer le contenu réel du contenu généré par l'IA devient de plus en plus cruciale. La désinformation pourrait devenir plus convaincante et les deepfakes plus répandus.

Mais ne pleuvons pas sur le défilé. CoDi est un pas en avant significatif dans la technologie de l'IA, montrant à quel point nous avons progressé dans la formation des machines pour comprendre et recréer la riche tapisserie de la communication humaine.

Si vous souhaitez approfondir les mécanismes de CoDi, ou peut-être même l'expérimenter vous-même, vous pouvez consulter l'open-source base de code sur GitHub. Qui sait quel genre de transformations sauvages vous pourriez créer en utilisant CoDi ?

En fin de compte, ce qui rend CoDi vraiment révolutionnaire, c'est sa capacité à mélanger de manière transparente différents types de données et à générer des sorties d'une manière qui était auparavant considérée comme impossible. C'est comme regarder un alchimiste au travail transformer le plomb en or.

Sauf dans ce cas, il transforme n'importe quel type d'entrée en n'importe quel type de sortie. C'est vraiment une ère remarquable de l'IA dans laquelle nous vivons.