Autores:
(1) Prerak Gandhi, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai, [email protected], y estos autores contribuyeron igualmente a este trabajo;
(2) Vishal Pramanik, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai, vishalpramanik,[email protected], y estos autores contribuyeron igualmente a este trabajo;
(3) Pushpak Bhattacharyya, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai.
La narración de historias es el sustento de la industria del entretenimiento: las películas, los programas de televisión y las comedias en vivo necesitan historias. Un guión bueno y apasionante es el sustento de la narración y exige creatividad e inversión de recursos. Es raro encontrar buenos guionistas y, a menudo, trabajan bajo una gran presión de tiempo. En consecuencia, los medios de entretenimiento buscan activamente la automatización. En este artículo, presentamos un banco de trabajo de escritura de guiones basado en inteligencia artificial llamado KUROSAWA que aborda las tareas de generación de tramas y guiones. La generación de tramas tiene como objetivo generar una trama coherente y creativa (600 a 800 palabras) con una pauta (15 a 40 palabras). La generación de guiones, por otro lado, genera una escena (200 a 500 palabras) en formato de guión a partir de una breve descripción (15 a 40 palabras). Kurosawa necesita datos para entrenar. Usamos una estructura de narración de 4 actos para anotar el conjunto de datos de la trama manualmente. Creamos un conjunto de datos de 1000 tramas anotadas manualmente y sus correspondientes indicaciones/argumentos y un conjunto de datos estándar de 1000 escenas con cuatro elementos principales (títulos de escena, líneas de acción, diálogos y nombres de personajes) etiquetados individualmente. Ajustamos GPT-3 con los conjuntos de datos anteriores para generar tramas y escenas. Estas tramas y escenas son primero evaluadas y luego utilizadas por los guionistas de una gran y famosa plataforma de medios, ErosNow[1]. Publicamos los conjuntos de datos anotados y los modelos entrenados en estos conjuntos de datos como punto de referencia de trabajo para la generación automática de guiones y tramas de películas.
Las películas son una de las fuentes de entretenimiento más populares para las personas en todo el mundo y pueden ser un medio sólido para la educación y la conciencia social. El impacto y la influencia de las industrias cinematográficas se pueden medir por el hecho de que las películas de Hollywood invierten *Estos autores contribuyeron igualmente a este trabajo 1 https://erosnow.com/ cientos de millones de dólares y, a menudo, recaudan miles de millones de dólares en taquilla. La primera película, El gran robo del tren, 1903, en blanco y negro y sin sonido, se creó a principios del siglo XX. Desde entonces, el arte ha pasado por varias transformaciones y ahora las personas pueden acceder instantáneamente a las películas 4K HD de su agrado en cualquier dispositivo inteligente.
A lo largo de la historia del cine, dos de los factores que han contribuido al éxito de taquilla de una película han sido la calidad de su trama y la forma de contarla. El atractivo de la película disminuye drásticamente si los espectadores encuentran la trama tremendamente predecible. Por lo tanto, escribir un guión creativo y apasionante es una necesidad crítica y un gran desafío. Si a esto le sumamos las limitaciones de tiempo y presupuesto, la necesidad de una automatización (al menos parcial) en la redacción de guiones se vuelve obvia.
La generación de historias basada en IA se ha utilizado antes. A partir de la explicación cognitiva de la escritura, compromiso-reflexión, el modelo informático MEXICA (Pérez y Sharples, 2001) genera marcos para cuentos cortos. BRUTUS (Bringsjord y Ferrucci, 1999) crea historias cortas con temas predeterminados como la traición. Con la llegada de los modelos de transformadores previamente entrenados, la generación automática de historias ha recibido un impulso. Los modelos de transformadores como GPT-2 y GPT-3 se utilizan ampliamente para la generación de texto. Estos modelos han demostrado la capacidad de generar texto creativo, aunque en ocasiones con alucinaciones (Zhao et al., 2020). El texto generado por estos modelos a veces también carece de coherencia y cohesión. Por otro lado, los modelos basados en plantillas pueden generar texto coherente pero carecen de creatividad para generar nuevos personajes y eventos en la trama (Kale y Rastogi, 2020).
El proceso de creación de una película generalmente comienza con una idea que luego se utiliza para crear una trama que sirve como base para construir el guión de la película (Figura 1).
Los conjuntos de datos novedosos son una característica importante de este artículo. Estudiamos de cerca las tramas y los argumentos de las películas de Bollywood y Hollywood. Estas tramas e indicaciones fueron extraídas de Wikipedia[2] e IMDb[3], respectivamente. Luego, las tramas se anotan utilizando la estructura de la historia en 4 actos, una extensión de la conocida estructura en 3 actos (Field, 1979). La estructura de 4 actos y los métodos de anotación se explican en detalle en el apéndice A.5 y la sección 4, respectivamente.
Presentamos un conjunto de datos de 1000 escenas de películas de Hollywood y sus breves descripciones. Los scripts se extrajeron de IMSDb[4]. Las escenas están comentadas con los cuatro componentes principales de un guión: sluglines, líneas de acción, nombres de personajes y diálogos, que se describen en detalle en el apéndice A.4.
Introducimos un banco de trabajo que llamamos "Kurosawa", que consta de conjuntos de datos y un par de modelos GPT-3 (Brown et al., 2020) ajustados con dichos conjuntos de datos. Un modelo GPT-3 genera la trama de una película a partir de una breve descripción de la historia (de 15 a 40 palabras), mientras que el otro crea una escena basada en una breve descripción de la escena requerida.
Es importante destacar que hemos proporcionado la plataforma "Kurosawa" a una de las mayores plataformas de medios dedicadas al negocio de hacer películas y programas de televisión, producir música y bandas sonoras, etc., para ayudar a los escritores de guiones y contenidos de diferentes industrias cinematográficas a crear nuevas tramas cinematográficas.
Nuestras aportaciones en este trabajo son las siguientes:
• Hasta donde sabemos, este es el primer trabajo sobre la generación de escenas de películas a partir de una descripción de escena.
• Creamos y publicamos dos conjuntos de datos: (a) un conjunto de datos paralelo de 1000 historias de películas y sus correspondientes tramas, (b) un conjunto de datos paralelo de 1000 escenas de películas y sus descripciones correspondientes. En (a), vinculamos las historias de películas disponibles en IMDb con las tramas de películas correspondientes disponibles en Wikipedia. En (b), vinculamos escenas de películas disponibles de IMSDb con las descripciones correspondientes de IMDb.
• Anotamos manualmente los argumentos de las películas según una estructura de 4 actos que es una extensión de la conocida estructura de 3 actos (Field, 1979). Guionistas profesionales de la industria de los medios y el entretenimiento nos guiaron muy de cerca.
• Anotamos manualmente escenas de películas con cuatro componentes principales de una escena: líneas breves, líneas de acción, nombres de personajes y diálogos, junto con una breve descripción de la escena.
• Presentamos “Kurosawa”: un banco de trabajo que consta de múltiples conjuntos de datos y modelos que pueden ayudar a los escritores de guiones y escenas en la industria cinematográfica.
Este documento está disponible en arxiv bajo licencia CC 4.0 DEED.
[1] https://erosnow.com/
[2] https://www.wikipedia.org/
[3] https://www.imdb.com/
[4] https://www.imsdb.com/