Auteurs:
(1) Prerak Gandhi, Département d'informatique et d'ingénierie, Institut indien de technologie de Bombay, Mumbai, [email protected], et ces auteurs ont contribué à parts égales à ce travail ;
(2) Vishal Pramanik, Département d'informatique et d'ingénierie, Institut indien de technologie de Bombay, Mumbai, vishalpramanik, [email protected], et ces auteurs ont contribué à parts égales à ce travail ;
(3) Pushpak Bhattacharyya, Département d'informatique et d'ingénierie, Institut indien de technologie de Bombay, Mumbai.
La narration est la bouée de sauvetage de l’industrie du divertissement : les films, les émissions de télévision et les comédies stand-up ont tous besoin d’histoires. Un scénario de qualité et captivant est la bouée de sauvetage de la narration et exige de la créativité et un investissement en ressources. Les bons scénaristes sont rares et travaillent souvent sous de fortes contraintes de temps. Par conséquent, les médias de divertissement recherchent activement l’automatisation. Dans cet article, nous présentons un atelier d'écriture de scripts basé sur l'IA appelé KUROSAWA qui répond aux tâches de génération d'intrigues et de génération de scripts. La génération d'intrigues vise à générer une intrigue cohérente et créative (600 à 800 mots) à partir d'une invite (15 à 40 mots). La génération de script, quant à elle, génère une scène (200 à 500 mots) sous forme de scénario à partir d'une brève description (15 à 40 mots). Kurosawa a besoin de données pour s'entraîner. Nous utilisons une structure de narration en 4 actes pour annoter manuellement l'ensemble de données de l'intrigue. Nous créons un ensemble de données de 1 000 intrigues annotées manuellement et leurs invites/scénarios correspondants et un ensemble de données de référence de 1 000 scènes avec quatre éléments principaux — titres de scène, lignes d'action, dialogues et noms de personnages — étiquetés individuellement. Nous affinons GPT-3 avec les ensembles de données ci-dessus pour générer des intrigues et des scènes. Ces intrigues et scènes sont d’abord évaluées puis utilisées par les scénaristes d’une grande et célèbre plateforme médiatique ErosNow[1]. Nous publions les ensembles de données annotés et les modèles formés sur ces ensembles de données comme référence de travail pour la génération automatique d'intrigues de films et de scripts.
Les films sont l’une des sources de divertissement les plus populaires dans le monde entier et peuvent constituer un puissant moyen d’éducation et de sensibilisation sociale. L'impact et l'influence des industries cinématographiques peuvent être mesurés à partir du fait que les films hollywoodiens investissent *Ces auteurs ont contribué à parts égales à ce travail 1 https://erosnow.com/ des centaines de millions de dollars et réalisent souvent des recettes au box-office de plusieurs milliards de dollars. Le premier film The Great Train Robbery, 1903 – en noir et blanc sans son – a été créé au début du 20e siècle. Depuis lors, l’art a subi plusieurs transformations et les gens peuvent désormais accéder instantanément aux films HD 4K de leur choix sur n’importe quel appareil intelligent.
Tout au long de l’histoire du cinéma, deux des facteurs qui ont contribué au succès d’un film ont été la qualité de son intrigue et la manière de raconter l’histoire. L’attrait du film diminue considérablement si les téléspectateurs trouvent l’intrigue terriblement prévisible. Écrire un scénario créatif et passionnant est donc une nécessité cruciale et constitue un défi extrêmement difficile. Ajoutez à cela les contraintes de temps et de budget, et la nécessité d’une automatisation (au moins partielle) de l’écriture des scripts devient évidente.
La génération d’histoires basée sur l’IA a déjà été utilisée. Basé sur l'explication cognitive engagement-réflexion de l'écriture, le modèle informatique MEXICA (Pérez et Sharples, 2001) génère des cadres pour des contes courts. BRUTUS (Bringsjord et Ferrucci, 1999) crée des nouvelles avec des thèmes prédéterminés comme la trahison. Avec l’arrivée de modèles de transformateurs pré-entraînés, la génération automatique d’histoires a un coup de pouce. Les modèles de transformateurs tels que GPT-2 et GPT-3 sont largement utilisés pour la génération de texte. Ces modèles ont montré la capacité de générer du texte créatif, bien que parfois avec des hallucinations (Zhao et al., 2020). Le texte généré par ces modèles manque aussi parfois de cohérence et de cohésion. D’un autre côté, les modèles basés sur des modèles peuvent générer un texte cohérent mais manquent de créativité pour générer de nouveaux personnages et événements dans l’intrigue (Kale et Rastogi, 2020).
Le processus de création d'un film commence généralement par une idée qui est ensuite utilisée pour créer une intrigue qui sert de base à la construction du script du film (Figure 1).
Les nouveaux ensembles de données constituent une caractéristique importante de cet article. Nous avons étudié de près les intrigues et les invites des films de Bollywood et d'Hollywood. Ces intrigues et invites ont été extraites respectivement de Wikipédia[2] et IMDb[3]. Les intrigues sont ensuite annotées en utilisant la structure de l'histoire en 4 actes, une extension de la structure bien connue en 3 actes (Field, 1979). La structure en 4 actes et les méthodes d'annotation sont expliquées en détail respectivement dans l'annexe A.5 et la section 4.
Nous introduisons un ensemble de données de 1000 scènes de films hollywoodiens et leurs brèves descriptions. Les scripts sont extraits d'IMSDb[4]. Les scènes sont annotées avec les quatre éléments majeurs d'un scénario : les sluglines, les lignes d'action, les noms des personnages et les dialogues, décrits en détail dans l'annexe A.4.
Nous introduisons un atelier que nous appelons « Kurosawa », composé d'ensembles de données et d'une paire de modèles GPT-3 (Brown et al., 2020) affinés avec lesdits ensembles de données. Un modèle GPT-3 génère une intrigue de film à partir d'une brève description du scénario (15 à 40 mots), tandis que l'autre crée une scène basée sur une brève description de la scène requise.
Il est important de noter que nous avons fourni la plate-forme « Kurosawa » à l'une des plus grandes plates-formes médiatiques spécialisées dans la réalisation de films et d'émissions de télévision, la production de musique et de bandes sonores, etc., pour aider les scénaristes et les scénaristes de contenu de différentes industries cinématographiques à créer de nouvelles intrigues cinématographiques.
Nos contributions dans ce travail sont les suivantes :
• À notre connaissance, il s'agit du premier travail sur la génération de scènes de film à partir d'une description de scène.
• Nous créons et publions publiquement deux ensembles de données : (a) un ensemble de données parallèle de 1 000 intrigues de films et leurs intrigues correspondantes, (b) un ensemble de données parallèle de 1 000 scènes de films et leurs descriptions correspondantes. Dans (a), nous lions les scénarios de films disponibles sur IMDb avec les intrigues de films correspondantes disponibles sur Wikipédia. Dans (b), nous lions les scènes de film disponibles sur IMSDb avec les descriptions correspondantes sur IMDb.
• Nous annotons manuellement les intrigues d'un film selon une structure en 4 actes qui est une extension de la structure bien connue en 3 actes (Field, 1979). Des scénaristes professionnels du secteur des médias et du divertissement nous ont guidés de très près.
• Nous annotons manuellement les scènes de film avec quatre composants principaux d'une scène : les sluglines, les lignes d'action, les noms des personnages et les dialogues, ainsi qu'une brève description de la scène.
• Nous présentons « Kurosawa » : un atelier composé de plusieurs ensembles de données et de modèles qui peuvent aider les scénaristes et les scénaristes de l'industrie cinématographique.
Cet article est disponible sur arxiv sous licence CC 4.0 DEED.
[1] https://erosnow.com/
[2] https://www.wikipedia.org/
[3] https://www.imdb.com/
[4] https://www.imsdb.com/