paint-brush
Generación de avances de películas mediante descomposición de tareas: formulación de problemaspor@kinetograph

Generación de avances de películas mediante descomposición de tareas: formulación de problemas

Demasiado Largo; Para Leer

En este artículo, los investigadores modelan películas como gráficos para generar avances, identificar la estructura narrativa y predecir el sentimiento, superando los métodos supervisados.
featured image - Generación de avances de películas mediante descomposición de tareas: formulación de problemas
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Pinelopi Papalampidi, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;

(2) Frank Keller, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;

(3) Mirella Lapata, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo.

Tabla de enlaces

3. Formulación del problema

La generación de tráilers requiere la selección de planos L de una película de largometraje de planos M (LM). Las películas presentan historias complejas que pueden contener subtramas distintas o eventos que se desarrollan de manera no lineal, mientras que eventos redundantes, llamados "rellenos", enriquecen la historia principal. Por tanto, no podemos asumir que los planos consecutivos estén necesariamente relacionados semánticamente. Para explorar mejor las relaciones entre eventos, representamos películas como gráficos [42]. Sea G = (V, E) un gráfico donde los vértices V son tiros y las aristas E representan su similitud semántica. Además, consideramos el orden temporal original de los planos en G al permitir solo bordes dirigidos desde los planos anteriores a los futuros. G se describe mediante una matriz de transición triangular superior T, que registra la probabilidad de transición del disparo i a cada disparo futuro j.


Dentro de G, asumimos que algunos planos describen eventos clave de la película (círculos gruesos en la Figura 2), mientras que todos los planos tienen un sentimiento (positivo o negativo), cuya intensidad se indica mediante una puntuación (tonos de verde/rojo en la Figura 2). . Proponemos un algoritmo para recorrer G y seleccionar secuencias de tomas de avances. A continuación, primero describimos este algoritmo (Sección 3.1) y luego analizamos cómo se aprende el gráfico G y se detectan eventos clave mediante la identificación de TP [41] (Sección 3.2). Finalmente, también explicamos cómo se predicen las puntuaciones de sentimiento basadas en disparos (Sección 3.5).

3.1. Recorrido del gráfico de película




Seleccionamos L tomas en total (dependiendo de la longitud del avance objetivo) y recuperamos una secuencia de avance de propuesta como se muestra en la Figura 2 (línea en negrita). En cada paso, realizamos un seguimiento del flujo de sentimiento creado y de los TP identificados hasta el momento (líneas 10 y 13-14 del Algoritmo 1, respectivamente). Se seleccionó un evento TP para su presentación en el tráiler si se agregó una toma o sus vecinos inmediatos al camino.

3.2. Identificación de TP





El modelo basado en video supone acceso a etiquetas TP a nivel de toma. Sin embargo, el único conjunto de datos para la identificación de TP que conocemos es TRIPOD [41], que contiene etiquetas a nivel de escena basadas en guiones. Para obtener etiquetas más detalladas, proyectamos anotaciones basadas en escenas en tomas siguiendo un mapeo simple de uno a muchos (consulte la Sección 4 para obtener más detalles). Dado que nuestra señal de entrenamiento es inevitablemente ruidosa, planteamos la hipótesis de que el acceso a los guiones alentaría al modelo basado en video a seleccionar tomas que sean más representativas de cada TP. En otras palabras, los guiones representan conocimiento privilegiado y una señal de supervisión implícita, al tiempo que alivian la necesidad de un procesamiento previo adicional durante la inferencia. Además, los guiones proporcionan una gran cantidad de información adicional, por ejemplo, sobre los personajes y sus roles en una escena, o sus acciones y emociones (transmitidas mediante líneas que describen lo que ve la cámara). De lo contrario, esta información podría resultar difícil de localizar con precisión en vídeo. Además, los corpus de textos sin etiquetar de guiones son relativamente fáciles de obtener y pueden usarse para entrenar previamente nuestra red.


Figura 2. GRAPHTRAILER: una película es un gráfico cuyos nodos son planos y las aristas denotan relaciones entre ellos. Cada toma se caracteriza por una puntuación de sentimiento (sombras verde/rojo para valores positivos/negativos) y etiquetas que describen eventos importantes (círculos gruesos). Nuestro algoritmo realiza recorridos en el gráfico (línea en negrita) para generar secuencias de avances de propuestas.

3.3. Destilación del conocimiento

Ahora describimos nuestro régimen de entrenamiento conjunto para las dos redes que encapsulan diferentes vistas de la película en términos de flujos de datos (multimodal versus solo texto) y su segmentación en unidades semánticas (tomas versus escenas).



Figura 3. Dos redes procesan diferentes vistas de la película con diferentes grados de granularidad. La red basada en video toma como entrada representaciones de tomas multimodales detalladas basadas en la transmisión de video de la película. La red basada en guiones procesa representaciones textuales de escenas que son de grano grueso y se basan en el guión de la película. Las redes se entrenan conjuntamente en la identificación de TP con pérdidas que imponen la coherencia de la predicción y la representación entre ellas.


Pérdida de coherencia de la representación Proponemos utilizar una segunda pérdida de regularización entre las dos redes para imponer también la coherencia entre las dos representaciones basadas en gráficos (es decir, sobre tomas de vídeo y escenas de guión). El propósito de esta pérdida es doble: mejorar las predicciones de TP para las dos redes, como se muestra en trabajos previos sobre aprendizaje de representación contrastiva [38, 39, 48], y también ayudar a aprender conexiones más precisas entre tomas (recuerde que la toma- El gráfico basado sirve como entrada para nuestro algoritmo de generación de avances (Sección 3.1). En comparación con las escenas de un guión, que describen acontecimientos autónomos de una película, las tomas de vídeo duran sólo unos segundos y dependen del contexto circundante para su significado. Nuestra hipótesis es que al imponer la vecindad del gráfico para una toma para preservar una semántica similar a la escena del guión correspondiente, fomentaremos la selección de vecinos apropiados en el gráfico basado en tomas.



3.4. Preentrenamiento autosupervisado

El entrenamiento previo tiene como objetivo aprender mejores representaciones de escenas a partir de guiones que son más accesibles que los videos de películas (por ejemplo, menos problemas de derechos de autor y menos gastos computacionales) con la esperanza de que este conocimiento se transfiera a la red basada en videos a través de nuestras pérdidas de consistencia.


3.5. Predicción de sentimiento

Finalmente, nuestro modelo tiene en cuenta cómo fluye el sentimiento de una toma a la siguiente. Predecimos puntuaciones de sentimiento por disparo con la misma arquitectura conjunta (Sección 3.3) y régimen de entrenamiento que utilizamos para la identificación de TP. La red basada en video se entrena en tomas con etiquetas de sentimiento (es decir, positivo, negativo, neutral), mientras que la red basada en guión se entrena en escenas con etiquetas de sentimiento (la Sección 4 explica cómo se obtienen las etiquetas). Después del entrenamiento, predecimos una distribución de probabilidad sobre las etiquetas de sentimiento por disparo para capturar el flujo de sentimiento y discriminar entre disparos de alta y baja intensidad (consulte el Apéndice para obtener más detalles).



Este documento está disponible en arxiv bajo licencia CC BY-SA 4.0 DEED.