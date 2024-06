OpenAI a propulsé l'IA générative vers de nouveaux sommets avec Sora, son nouveau modèle de conversion texte-vidéo capable de générer des scènes réalistes simplement à partir d'instructions écrites. Alors que DALL-E et d'autres modèles de conversion texte-image nous ont montré la puissance de la génération d'IA, Sora démontre à quel point nous avons parcouru en ajoutant l'élément de mouvement.

Au-delà des images fixes, Sora peut générer des vidéos d'une durée maximale d'une minute. Il peut également prendre des vidéos existantes et remplir les images manquantes pour améliorer le contenu. Les possibilités de création sont infinies : nous pourrions voir à l’avenir des courts métrages, des animations ou même des rediffusions sportives améliorées générées par l’IA.

Mais ce qui est vraiment impressionnant chez Sora, c'est sa compréhension du monde physique. Il peut simuler des scènes complexes impliquant plusieurs personnages et mouvements. Vous voulez voir quelqu'un marcher dans une forêt avec un bruissement réaliste des feuilles et la lumière du soleil filtrant à travers les arbres ? Sora a ce qu'il vous faut.

Sous le capot, Sora s'appuie sur des travaux antérieurs sur les modèles de diffusion et les transformateurs. Les étapes aléatoires d'un modèle de diffusion excellent dans la génération de données de grande dimension comme des vidéos. Pendant ce temps, les transformateurs gèrent des tâches de traitement de données séquentielles comme le langage naturel.

Bien sûr, il existe encore certaines limites. Simuler des phénomènes physiques complexes comme des accidents de voiture ou des plongées en falaise s'avère difficile. Le modèle se débat également avec les causes et les effets : ne vous attendez pas à ce que des bouchées de biscuits apparaissent comme par magie après que quelqu'un en ait pris une bouchée !

Naturellement, OpenAI se concentre sur la sécurité. Avant leur diffusion publique, ils améliorent les techniques permettant de filtrer les contenus nuisibles ou trompeurs. Le progrès nécessite un équilibre délicat : Sora doit générer de manière réaliste tout en évitant tout ce qui est inapproprié.

Pour l'instant, l'entreprise a mis en place les mesures de sécurité suivantes :

Restrictions de contenu : OpenAI a établi des directives de contenu strictes pour Sora, similaires à celles en place pour son modèle DALL-E 3. Ces directives interdisent la génération de contenus violents, sexuels ou haineux, ainsi que l'appropriation de l'image de personnes réelles ou du style d'artistes nommés.



Métadonnées de provenance et identification : pour promouvoir la transparence et la responsabilité, OpenAI prévoit de fournir des métadonnées de provenance pour les vidéos générées par Sora. De plus, la société permettra aux téléspectateurs d'identifier le contenu créé par le modèle d'IA.



Red Teaming et accès limité : OpenAI a accordé l'accès à Sora à un groupe sélectionné de chercheurs, d'artistes visuels et de cinéastes qui "équiperont en rouge" le produit, en le testant pour déterminer sa susceptibilité à contourner les conditions de service de l'entreprise. Cet accès limité permet à OpenAI de recueillir des commentaires et d'identifier les risques potentiels avant de rendre le modèle plus largement disponible.