paint-brush
"Kurosawa": un asistente de guionista: resultados y análisispor@teleplay

"Kurosawa": un asistente de guionista: resultados y análisis

por Teleplay Technology 4m2024/05/23
Read on Terminal Reader

Demasiado Largo; Para Leer

En este artículo, los investigadores presentan KUROSAWA, un banco de trabajo de escritura de guiones con IA para la generación de guiones y tramas, que aborda la automatización en los medios de entretenimiento.
featured image - "Kurosawa": un asistente de guionista: resultados y análisis
Teleplay Technology  HackerNoon profile picture
0-item

Autores:

(1) Prerak Gandhi, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai, [email protected], y estos autores contribuyeron igualmente a este trabajo;

(2) Vishal Pramanik, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai, vishalpramanik,[email protected], y estos autores contribuyeron igualmente a este trabajo;

(3) Pushpak Bhattacharyya, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai.

Tabla de enlaces

6. Resultados y análisis

Presentamos nuestras observaciones y valoraciones. La naturaleza de nuestra tarea hace que la evaluación humana tenga prioridad sobre la evaluación automática (¡después de todo, es para la generación automática de guiones de películas!). El análisis cualitativo de nuestras tramas y escenas generadas se basa en los comentarios de 5 guionistas profesionales de nuestro socio industrial, la conocida plataforma de medios.

6.1. Generación de trama

6.1.1. Evaluación automática

La Tabla 1 muestra puntuaciones de autoevaluación para los múltiples modelos de generación de gráficos GPT-3.


Figura 4: El párrafo anterior es un ejemplo parcial de la trama de una película generada por el modelo ajustado con entrada como una historia corta y salida como trama anotada con la estructura de 4 actos.

6.1.2. Calificación humana

Realizamos una evaluación humana en el modelo de entrada breve anotado de Hollywood. La evaluación fue realizada por cinco grupos de 3 personas, siendo cada grupo


Tabla 1: Puntuaciones de métricas de evaluación comunes para 5 modelos de generación de tramas de Hollywood ajustados en GPT-3 como O, AS, ASG, AL, ALG (5.1)


habiendo sido asignadas 10 parcelas únicas. Las calificaciones otorgadas para las 5 características se encuentran en la Figura 5. Las puntuaciones promedio de fluidez, creatividad, simpatía, coherencia y relevancia son 3,98, 3,29, 2,97, 2,65 y 2,55 , respectivamente. Una fluidez de casi 4 es un indicador del poder de GPT-3 como modelo de lenguaje. La creatividad y la simpatía son respetables con un valor de alrededor de 3,0. Las bajas puntuaciones de BLEU respaldan la puntuación media de creatividad (Tabla 1). La Figura 5 indica que la coherencia y la relevancia todavía tienen un gran margen de mejora.


El valor MAUVE (Pillutla et al., 2021) mide la brecha entre el texto neuronal y el texto humano. Hemos calculado por separado las puntuaciones MAUVE para 20 parcelas y 50 parcelas. El promedio ponderado de las puntuaciones MAUVE para los dos experimentos es 0,48 , lo cual es razonablemente bueno.

6.1.3. Observaciones cualitativas

Los guionistas profesionales de nuestro socio industrial han hecho las siguientes observaciones:


Tramas de Hollywood sin anotaciones


• La preparación es creativa e interesante, pero el final se vuelve incoherente.


• Algunos personajes que se presentan al principio nunca se vuelven a mencionar.


• El resultado no describe los puntos clave o el tema mencionado en el insumo.


Tramas comentadas de Hollywood


• Las tramas son mucho más coherentes y los finales son lógicos.


• Todavía hay alucinaciones presentes (una característica común de todos los modelos).


• Las aportaciones más largas hicieron que las tramas prestaran más atención a los puntos clave.


Tramas de Hollywood comentadas con géneros incluidos


• Junto a los puntos anteriores, ahora las tramas generadas se inclinan más hacia el género o géneros de la película que el escritor quiere crear.


• La adición de género da cierto control sobre el tipo de trama generada por el modelo.


Tramas comentadas de Bollywood


• Las salidas muestran incoherencia en los dos últimos párrafos y repetición de los mismos personajes a lo largo de la trama.


• El flujo de la trama no es lo suficientemente rápido, es decir, la trama no avanza mucho.


• Muchas de las producciones tienen un tema de la década de 1990, donde los personajes se separan y luego se encuentran. Esto se debe a un conjunto de datos sesgado con gráficos menos modernos.

6.2. Generación de escena

Ajustamos GPT-3 para la generación de escenas con nuestro conjunto de datos. Generamos diez escenas usando los modelos mencionados en 5.1. Figura 7 en el apéndice. muestra un ejemplo de una escena completamente generada.

6.2.1. Calificaciones humanas

Realizamos una evaluación humana en 10 escenas generadas por el modelo anterior. 5 personas evaluaron las escenas mediante la Escala Likert. Las calificaciones de las cinco características se pueden ver en la Figura 5. Las puntuaciones promedio de fluidez, creatividad, simpatía, coherencia y relevancia son 4,48, 3,9, 3,48, 3,46 y 3,86 , respectivamente. Todos los valores están por encima de la marca neutral e implican que las escenas generadas son cercanas a escenas escritas por humanos.


Figura 5: Gráficos de diagrama de caja para la evaluación humana de los modelos de generación de trama y escena.

6.2.2. Observaciones cualitativas

En esta sección analizamos la calidad de las escenas generadas por el modelo GPT-3. Este análisis ha sido realizado por guionistas profesionales del medio anteriormente mencionado.


• El modelo produce una escena bien estructurada.


• Puede crear nuevos personajes y fabricar diálogos incluso cuando no son importantes.


• Los puntos clave de la entrada se pueden encontrar en la salida.


• Hay algunas líneas que son repetitivas.


• El resultado no es completamente coherente.


Este documento está disponible en arxiv bajo licencia CC 4.0 DEED.