paint-brush
Generación de avances de películas mediante descomposición de tareas: resumen e introducciónpor@kinetograph

Generación de avances de películas mediante descomposición de tareas: resumen e introducción

Demasiado Largo; Para Leer

En este artículo, los investigadores modelan películas como gráficos para generar avances, identificar la estructura narrativa y predecir el sentimiento, superando los métodos supervisados.
featured image - Generación de avances de películas mediante descomposición de tareas: resumen e introducción
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Pinelopi Papalampidi, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;

(2) Frank Keller, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;

(3) Mirella Lapata, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo.

Tabla de enlaces

Abstracto

Los avances de películas cumplen múltiples funciones: presentan la historia a los espectadores, transmiten el estado de ánimo y el estilo artístico de la película y animan al público a ver la película. Estas diversas funciones hacen que la generación automática de remolques sea una tarea desafiante. Lo descomponemos en dos subtareas: identificación de la estructura narrativa y predicción de sentimientos. Modelamos películas como gráficos, donde los nodos son planos y los bordes denotan relaciones semánticas entre ellos. Aprendemos estas relaciones mediante un entrenamiento contrastivo conjunto que aprovecha información textual privilegiada (por ejemplo, personajes, acciones, situaciones) de los guiones. Luego, un algoritmo no supervisado recorre el gráfico y genera avances que los jueces humanos prefieren a los generados por enfoques supervisados competitivos.

1. Introducción

Los avances son vídeos cortos que se utilizan para promocionar películas y, a menudo, son fundamentales para el éxito comercial. Si bien su función principal es comercializar la película a una variedad de audiencias, los avances también son una forma de arte persuasivo y narrativa promocional, diseñados para hacer que los espectadores quieran ver la película. Aunque la realización de trailers se considera un esfuerzo artístico, la industria cinematográfica ha desarrollado estrategias que guían la construcción de trailers. Según una escuela de pensamiento, los trailers deben exhibir una estructura narrativa que consta de tres actos[1]. El primer acto establece los personajes y la configuración de la historia, el segundo acto presenta el conflicto principal y el tercer acto aumenta las apuestas y proporciona avances del final. Otra escuela de pensamiento está más preocupada por el estado de ánimo del tráiler definido por los altibajos de la historia[2]. Según este enfoque, los trailers deben tener una intensidad media al principio para cautivar a los espectadores, seguido de una intensidad baja para entregar información clave sobre la historia, y luego aumentar progresivamente la intensidad hasta alcanzar un clímax al final del trailer.


Figura 1. Puntos de inflexión y sus definiciones.


Para crear avances automáticamente, necesitamos realizar tareas de bajo nivel, como identificación de personas, reconocimiento de acciones y predicción de sentimientos, pero también tareas de más alto nivel, como comprender las conexiones entre eventos y su causalidad, así como hacer inferencias sobre los personajes y sus comportamiento. Dada la complejidad de la tarea, aprender directamente todo este conocimiento a partir de pares de películas y avances requeriría miles de ejemplos, cuyo procesamiento y anotación sería un desafío. Por lo tanto, no sorprende que enfoques anteriores para la generación automática de avances [24,46,53] se hayan centrado únicamente en funciones audiovisuales.


Inspirándonos en el proceso creativo de los editores humanos, adoptamos un enfoque ascendente para la generación de avances, que descomponemos en dos subtareas ortogonales, más simples y bien definidas. La primera es la identificación de la estructura narrativa, es decir, recuperar los acontecimientos más importantes de la película. Una teoría comúnmente adoptada en la escritura de guiones [13,22,51] sugiere que hay cinco tipos de eventos clave en la trama de una película, conocidos como puntos de inflexión (TP; consulte sus definiciones en la Figura 1). La segunda subtarea es la predicción de sentimientos, que vemos como una aproximación del flujo de intensidad entre las tomas y las emociones evocadas.


Generamos avances de propuestas siguiendo un enfoque basado en gráficos no supervisados. Modelamos películas como gráficos cuyos nodos son tomas y cuyos bordes denotan conexiones semánticas importantes entre tomas (ver Figura 2). Además, los nodos llevan etiquetas que indican si son eventos clave (es decir, TP) y puntuaciones que indican la intensidad del sentimiento (positivo o negativo). Nuestro algoritmo atraviesa este gráfico de película para crear secuencias de avances. Estos podrían usarse como propuestas para ser revisadas y modificadas por un editor humano.


Tanto las tareas de identificación de TP como de predicción de sentimientos se beneficiarán de una comprensión de nivel inferior del contenido de la película. De hecho, podríamos emplear módulos disponibles para identificar personajes y lugares, reconocer acciones y localizar unidades semánticas. Sin embargo, estos enfoques aumentan sustancialmente el tiempo de preprocesamiento y los requisitos de memoria durante el entrenamiento y la inferencia y sufren de propagación de errores. En lugar de ello, proponemos un régimen de aprendizaje contrastante, en el que aprovechamos los guiones como información privilegiada, es decir, información disponible sólo en el momento del entrenamiento. Los guiones revelan cómo la película está segmentada en escenas, quiénes son los personajes, cuándo y con quién hablan, dónde están y qué están haciendo (es decir, los “títulos de escena” explican dónde tiene lugar la acción, mientras que las “líneas de acción” describen lo que ve la cámara). En concreto, construimos dos redes individuales, una red textual basada en guiones y otra multimodal basada en vídeo, y las entrenamos conjuntamente utilizando pérdidas contrastivas auxiliares. Además, la red textual se puede entrenar previamente en grandes colecciones de guiones mediante un aprendizaje autodirigido, sin tener que recopilar y procesar las películas correspondientes. Los resultados experimentales muestran que este enfoque de entrenamiento contrastante es beneficioso, ya que da lugar a avances que los humanos juzgan favorablemente en términos de su contenido y atractivo.


Este documento está disponible en arxiv bajo licencia CC BY-SA 4.0 DEED.


[1] https://www.studiobinder.com/blog/how-to-make-a-movie-trailer


[2] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-trailereditors-dream