Autores:  (1) Prerak Gandhi, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai, prerakgandhi@cse.iitb.ac.in, y estos autores contribuyeron igualmente a este trabajo;  (2) Vishal Pramanik, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai, vishalpramanik,pb@cse.iitb.ac.in, y estos autores contribuyeron igualmente a este trabajo;  (3) Pushpak Bhattacharyya, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai.  Tabla de enlaces   Resumen e introducción   Motivación   Trabajo relacionado   Conjunto de datos   Experimentos y evaluación   Resultados y análisis   Conclusión y trabajo futuro   Limitaciones y referencias   A. Apéndice  4. Conjunto de datos  Para la generación de argumentos de películas, hemos tomado los argumentos de Wikipedia. Las indicaciones para esta tarea se han tomado de IMDb. En IMDb, este mensaje puede ser de dos tipos. La primera es una breve descripción (de 15 a 40 palabras) de la película, mientras que la segunda es una historia larga, que varía entre 30 y 200 palabras y contiene muchos más detalles sobre los diferentes personajes y eventos de la película. También hemos recopilado los géneros de cada película de IMDb. Luego dividimos las tramas usando una estructura de 4 actos. Para la generación de escenas, tomamos los guiones de IMSDb y los anotamos con los elementos clave de una escena.  4.1. Conjunto de datos de generación de gráficos  Hemos creado un conjunto de datos de 1000 argumentos que consisten en argumentos de Bollywood y Hollywood, extraídos de Wikipedia utilizando el módulo de Wikipedia en Python. Los argumentos recopilados tienen una extensión media de unas 700 palabras.  4.1.1. Directrices de anotación  Anotamos las tramas dividiéndolas manualmente en 4 partes usando la estructura de 4 actos descrita en el apéndice A.5. Colocamos una única etiqueta al final de cada acto: 〈uno〉 (Acto 1), 〈dos-a〉 (Acto 2 Parte A), 〈dos-b〉 (Acto 2 Parte B) y 〈tres〉 (Acto 3). ) como delimitadores. En el apéndice se proporciona un ejemplo de anotación de la trama (Figura 6).   4.1.2. Géneros de películas  Para brindar cierta controlabilidad a las tramas generadas por el modelo, hemos introducido los géneros de las películas en el conjunto de datos junto con la trama. Concatenamos los géneros al comienzo de la historia. La Figura 2 muestra las distribuciones de géneros en el conjunto de datos.  4.2. Conjunto de datos de generación de escenas  Los guiones de las películas son muy largos. Una película de dos horas equivale a unas 30.000 palabras. Los modelos de lenguaje utilizados para la generación de texto creativo, como GPT-2 y GPT-3, tienen límites de tokens de 1024 y 2048, respectivamente, lo que hace imposible manejar un script completo de una sola vez. Por lo tanto, dividimos los guiones en escenas y creamos manualmente sus breves descripciones. Esto permite entrenar las escenas de forma independiente en lugar de depender de escenas anteriores.  Los guiones de películas se componen de múltiples elementos descritos en el apéndice A.4. Los diferentes elementos aumentan la dificultad que enfrentan los modelos para aprender a distinguir cada elemento. Para superar este obstáculo, etiquetamos cuatro elementos principales a lo largo del guión:  líneas breves, líneas de acción, diálogos y nombres de personajes.  4.2.1. Directrices de anotación  Mantenemos los cuatro elementos principales presentes en cada guión (   ) y eliminamos cualquier otro tipo de información como número de página, transiciones o fechas de escenas. El etiquetado de los cuatro elementos principales se realiza mediante etiquetas de inicio y fin que se envuelven alrededor de los elementos, como se muestra a continuación: sluglines, líneas de acción, nombre de personaje y diálogos  • Sluglines: 〈bsl〉...〈esl〉  • Líneas de Acción: 〈bal〉...〈eal〉  • Nombre del personaje: 〈bcn〉...〈ecn〉  • Diálogo:〈bd〉...〈ed〉   En la figura 3 se ve un ejemplo de una escena comentada.  Este documento está   bajo licencia CC 4.0 DEED. disponible en arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Teleplay.Tech

From teleplay to technology, we weave a narrative tapestry that dances between writing, CGI, and action.

Teleplay's blog

Este audio es producido en el idioma original de la historia!

"Kurosawa": asistente de guionista: conjunto de datos

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Crecimiento de las criptomonedas: creación de perfiles de usuarios eficaces

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Telegram: el puente de Crypto Island hacia el continente

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

Crecimiento de las criptomonedas: creación de perfiles de usuarios eficaces

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Telegram: el puente de Crypto Island hacia el continente

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps