paint-brush
Generación de avances de películas mediante descomposición de tareas: resultados y análisispor@kinetograph
115 lecturas

Generación de avances de películas mediante descomposición de tareas: resultados y análisis

Demasiado Largo; Para Leer

En este artículo, los investigadores modelan películas como gráficos para generar avances, identificar la estructura narrativa y predecir el sentimiento, superando los métodos supervisados.
featured image - Generación de avances de películas mediante descomposición de tareas: resultados y análisis
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Pinelopi Papalampidi, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;

(2) Frank Keller, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;

(3) Mirella Lapata, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo.

Tabla de enlaces

5. Resultados y análisis

Utilidad de la destilación del conocimiento Primero investigamos si mejoramos la identificación de TP, ya que es fundamental para la tarea de generación de remolques. Dividimos el conjunto de películas con etiquetas de TP a nivel de escena reales en desarrollo y conjunto de prueba y seleccionamos las 5 mejores tomas (@5) y las 10 mejores (@10) por TP en una película. Como métrica de evaluación, consideramos el Acuerdo Parcial (PA; [41]), que mide el porcentaje de TP para los cuales un modelo identifica correctamente al menos una toma real de las 5 o 10 tomas seleccionadas de la película (ver Apéndice para más detalles). ).


Tabla 2. Rendimiento del modelo en la identificación de TP (conjunto de pruebas). GRAPHTRAILER se muestra con diferentes regímenes de entrenamiento. Métrica de evaluación: Acuerdo parcial (PA) con las 5 mejores (@5) y las 10 mejores tomas seleccionadas (@10) por TP y película.


La Tabla 2 resume nuestros resultados en el conjunto de prueba. Consideramos los siguientes sistemas de comparación: Selecciona aleatoriamente tiros de secciones distribuidas uniformemente (promedio de 10 carreras); La teoría asigna TP a los planos según la teoría de la escritura de guiones (por ejemplo, “Oportunidad” ocurre en el 10% de la película, “Cambio de planes” en el 25%, etc.); La distribución selecciona los tiros en función de su posición esperada en los datos de entrenamiento; GRAPHTP es el modelo original de [42] entrenado en guiones (proyectamos predicciones de TP a nivel de escena en tomas); Transformer es un modelo base sin información relacionada con gráficos. Usamos nuestro propio modelo, GRAPHTRAILER, en varias variantes para la identificación de TP: sin y con acceso a guiones, entrenado solo con la pérdida de consistencia de predicción (P), pérdidas de predicción y representación (P + R), y nuestro régimen de entrenamiento conjunto contrastivo. .


Observamos que GRAPHTRAILER supera todas las líneas base, así como el modelo Transformer. Aunque este último codifica dependencias de largo alcance entre tomas, GRAPHTRAILER también se beneficia de codificar directamente conexiones dispersas aprendidas en el gráfico. Además, la destilación asincrónica del conocimiento a través de la pérdida de consistencia de la predicción (P) mejora aún más el rendimiento, lo que sugiere que el conocimiento contenido en los guiones es complementario de lo que se puede extraer del vídeo. Observe que cuando agregamos la pérdida de consistencia de la representación (P + R), el rendimiento se deteriora por un amplio margen, mientras que el enfoque de entrenamiento propuesto (junta contrastiva) funciona mejor. Por último, la formación previa ofrece beneficios adicionales, aunque pequeños, lo que subraya los beneficios de la red basada en guiones.


Calidad del tráiler Ahora evaluamos el algoritmo de generación de tráiler de GRAPHTRAILER en el set de 41 películas reservadas (consulte la Tabla 1). Como métrica de evaluación utilizamos la precisión, es decir, el porcentaje de tomas del trailer identificadas correctamente y consideramos un presupuesto total de 10 tomas para los trailers para lograr la duración deseada (~2 minutos).


Tabla 3. Rendimiento de los modelos no supervisados (parte superior) y débilmente supervisados (parte inferior) en la generación de remolques: precisión de los disparos de remolque correctamente identificados. Todos los sistemas tienen el mismo presupuesto de disparo para la creación del tráiler.


Comparamos GRAPHTRAILER con varios enfoques no supervisados (primer bloque en la Tabla 3), que incluyen: Selección aleatoria entre todos los disparos y entre los TP identificados por GRAPHTRAILER; También implementamos dos sistemas basados en gráficos basados en un gráfico completamente conectado, donde los nodos son disparos y los bordes denotan el grado de similitud entre ellos. Este gráfico no tiene conocimiento de los TP, se construye calculando la similitud entre representaciones multimodales genéricas. TEXTRANK [35] opera sobre este gráfico para seleccionar tomas en función de su centralidad, mientras que GRAPHTRAILER sin TP recorre el gráfico con TP y criterios de sentimiento eliminados (Ecuación 2). Para los sistemas no supervisados que incluyen estocasticidad y producen propuestas (Random, GRAPHTRAILER), consideramos el mejor avance de propuesta. El segundo bloque de la Tabla 3 presenta enfoques supervisados que utilizan etiquetas de remolque ruidosas para la capacitación. Estos incluyen CCANet [53], que solo considera información visual y calcula la atención cruzada entre las tomas de la película y el avance, y un Transformer básico entrenado para la tarea binaria de identificar si una toma debe estar en el avance sin considerar guiones, sentimientos o TP. . GRAPHTRAILER supervisado consta de nuestra red basada en video entrenada con los mismos datos que el Transformer.


GRAPHTRAILER funciona mejor entre los métodos no supervisados. Curiosamente, TEXTRANK es peor que aleatorio, lo que ilustra que tareas como la generación de avances no pueden verse como problemas de resumen estándar. GRAPHTRAILER sin TP aún funciona mejor que TEXTRANK y la selección aleatoria de TP.[7] Con respecto a los enfoques supervisados, encontramos que el uso de todas las modalidades con una arquitectura estándar (Transformer) conduce a un mejor rendimiento que los modelos sofisticados que utilizan similitud visual (CCANet). Al agregar información relacionada con los gráficos (Supervised GRAPHTRAILER), obtenemos mayores mejoras.


Tabla 5. GRAPHTRAILER con diferentes criterios para realizar paseos aleatorios en el gráfico de la película (Algoritmo 1, Ecuación (2)).


Realizamos dos estudios de ablación en el set de desarrollo de GRAPHTRAILER. El primer estudio tiene como objetivo evaluar cómo los diferentes regímenes de entrenamiento de la red dual influyen en el rendimiento de la generación de remolques aguas abajo. Observamos en la Tabla 4 que el entrenamiento asincrónico no ofrece ninguna mejora perceptible con respecto al modelo base. Sin embargo, cuando entrenamos conjuntamente las dos redes (basadas en video y guiones) utilizando pérdidas de consistencia de predicción y representación, el rendimiento aumenta en casi un 3%. Se observa un pequeño aumento adicional cuando la red basada en guiones se entrena previamente con más datos.


El segundo estudio de ablación se refiere a los criterios utilizados para realizar paseos aleatorios en el gráfico G. Como se muestra en la Tabla 5, cuando obligamos a los nodos en la ruta seleccionada a estar cerca de eventos clave (similitud + TP), el rendimiento mejora. Cuando nos basamos únicamente en el sentimiento (similitud + sentimiento), el rendimiento cae ligeramente. Esto sugiere que, a diferencia de enfoques anteriores que se centran principalmente en el atractivo visual superficial [53, 57] o en el análisis de sentimientos audiovisuales [47], la información sobre los sentimientos por sí sola no es suficiente y puede promover valores atípicos que no encajan bien en un tráiler. Por otro lado, cuando la información sobre el sentimiento se combina con el conocimiento sobre la estructura narrativa (similitud + TP + sentimiento), observamos la mayor precisión. Esto valida aún más nuestra hipótesis de que las dos teorías sobre la creación de trailers (es decir, basadas en la estructura narrativa y las emociones) son complementarias y pueden combinarse.


Finalmente, dado que tenemos varios avances por película (para el equipo de desarrollo), podemos medir la superposición entre sus tomas (límite superior). La superposición promedio es del 86,14%, lo que demuestra un buen acuerdo entre los fabricantes de remolques y una gran brecha entre el desempeño humano y los modelos automáticos.


Finalmente, dado que tenemos varios avances por película (para el equipo de desarrollo), podemos medir la superposición entre sus tomas (límite superior). La superposición promedio es del 86,14%, lo que demuestra un buen acuerdo entre los fabricantes de remolques y una gran brecha entre el desempeño humano y los modelos automáticos.


Tabla 6. Evaluación humana en el set retenido. Porcentaje de respuestas afirmativas a: ¿El tráiler contiene suficiente información (P1) y es atractivo (P2)? Porcentaje de veces que cada sistema fue seleccionado como Mejor o Peor, y puntuación de escala estandarizada de mejor a peor.


Evaluación humana También realizamos un estudio de evaluación humana para evaluar la calidad de los remolques generados. Para la evaluación humana, incluimos la selección aleatoria sin TP como límite inferior, los dos modelos no supervisados de mejor rendimiento (es decir, GRAPHTRAILER con y sin TP) y dos modelos supervisados: CCANet, que es el estado del arte anterior para la generación de remolques. y la versión supervisada de nuestro modelo, que es el modelo de mejor rendimiento según métricas automáticas.[8] Generamos avances para todas las películas en el set reservado. Luego les pedimos a los trabajadores de Amazon Mechanical Turk (AMT) que vieran todos los avances de una película, respondieran preguntas relacionadas con la información proporcionada (P1) y el atractivo (P2) del avance, y seleccionaran el mejor y el peor avance. Recopilamos valoraciones de cinco jueces diferentes por película.


La Tabla 6 muestra que GRAPHTRAILER con TP proporciona en promedio trailers más informativos (Q1) y atractivos (Q2) que todos los demás sistemas. Aunque GRAPHTRAILER sin TP y GRAPHTRAILER supervisado se seleccionan con mayor frecuencia como los mejores, también se eligen con la misma frecuencia como los peores. Cuando calculamos puntuaciones estandarizadas (puntuaciones z) utilizando la escala mejor-peor [31], GRAPHTRAILER con TP logra el mejor rendimiento (tenga en cuenta que rara vez se selecciona como peor) seguido de GRAPHTRAILER supervisado. Curiosamente, GRAPHTRAILER sin TP es seleccionado con mayor frecuencia como el mejor (24,40%), lo que sugiere que el enfoque general de modelar películas como gráficos y realizar recorridos aleatorios en lugar de seleccionar tomas individualmente ayuda a crear avances coherentes. Sin embargo, el mismo modelo suele ser seleccionado como el peor, lo que demuestra que este enfoque ingenuo por sí solo no puede garantizar remolques de buena calidad.


Incluimos ejemplos en vídeo de avances generados según nuestro enfoque en el Material complementario. Además, proporcionamos un ejemplo gráfico paso a paso de nuestro algoritmo de recorrido de gráficos en el Apéndice.


¡Alerta de spoiler! Nuestro modelo no evita explícitamente spoilers en los trailers generados. Experimentamos con un criterio relacionado con los spoilers al recorrer el gráfico de la película en el Algoritmo 1. Específicamente, agregamos una penalización al seleccionar tomas que se encuentran en vecindarios del gráfico "sensibles a los spoilers". Identificamos esos vecindarios midiendo el camino más corto desde los dos últimos TP, que son, por definición, los mayores spoilers de una película. Sin embargo, esta variante de nuestro algoritmo dio como resultado un rendimiento inferior y, por lo tanto, no la seguimos. Creemos que este criterio no es beneficioso a la hora de proponer secuencias de tráilers, ya que disuade al modelo de seleccionar tomas interesantes de las últimas partes de la película. Estas tomas de alta tensión son importantes para crear avances interesantes y, de hecho, se incluyen en avances de la vida real. Más de un tercio de los tráilers profesionales de nuestro conjunto de datos contienen tomas de los dos últimos TP (“Gran revés”, “Clímax”). Discutimos esto más detalladamente en el Apéndice.


También inspeccionamos manualmente los trailers generados y descubrimos que los spoilers no son muy comunes (es decir, identificamos un spoiler importante en una muestra aleatoria de 12 trailers del conjunto de prueba), posiblemente porque la probabilidad de seleccionar un spoiler importante es generalmente baja. E incluso si se incluye una toma sensible al spoiler, sacada de contexto puede no ser suficiente para revelar el final de una película. Sin embargo, dejamos para futuros trabajos la investigación de técnicas de identificación de spoilers más elaboradas, que puedan integrarse fácilmente a nuestro algoritmo como criterios adicionales.


Este documento está disponible en arxiv bajo licencia CC BY-SA 4.0 DEED.


[7] El rendimiento en el conjunto de prueba es menor porque solo consideramos las etiquetas de los avances del avance oficial, mientras que el conjunto de desarrollo contiene varios avances.


[8] No incluimos trailers reales en la evaluación humana, ya que son postprocesados (es decir, montaje, voz en off, música) y, por lo tanto, no son directamente comparables con los automáticos.