paint-brush
Generación de avances de películas mediante descomposición de tareas: configuración experimentalpor@kinetograph

Generación de avances de películas mediante descomposición de tareas: configuración experimental

Demasiado Largo; Para Leer

En este artículo, los investigadores modelan películas como gráficos para generar avances, identificar la estructura narrativa y predecir el sentimiento, superando los métodos supervisados.
featured image - Generación de avances de películas mediante descomposición de tareas: configuración experimental
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Pinelopi Papalampidi, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;

(2) Frank Keller, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;

(3) Mirella Lapata, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo.

Tabla de enlaces

4. Configuración experimental

Conjuntos de datos Nuestro modelo fue entrenado en TRIPODL, una versión ampliada del conjunto de datos TRIPOD [41, 42] que contiene 122 guiones con anotaciones TP estándar (nivel de escena) [3] y los videos correspondientes. Para cada película, recopilamos tantos avances como fue posible de YouTube, incluidos los oficiales y (serios) basados en fans, o avances modernos para películas más antiguas. Para evaluar los avances producidos por nuestro algoritmo, también recopilamos un nuevo conjunto de 41 películas. Estas películas se seleccionaron del conjunto de datos Moviescope[5] [11], que contiene avances de películas oficiales. El conjunto reservado no contiene ninguna información adicional, como guiones o anotaciones de TP. Las estadísticas de TRIPODL se presentan en la Tabla 1.


Procesamiento de películas y avances El enfoque de modelado presentado en secciones anteriores supone que conocemos la correspondencia entre las escenas del guión y las tomas de la película. Obtenemos este mapeo alineando automáticamente el diálogo en los guiones con subtítulos usando Dynamic Time Warping (DTW; [36, 42]). Primero segmentamos el video en escenas según este mapeo y luego segmentamos cada escena en tomas usando PySceneDetect [6]. Las tomas con menos de 100 cuadros en total son demasiado cortas para procesarlas y mostrarlas como parte del avance y, por lo tanto, se descartan.


Además, para cada toma extraemos características visuales y de audio. Consideramos tres tipos diferentes de características visuales:


(1) Tomamos muestras de un fotograma clave por toma y extraemos características utilizando ResNeXt-101 [56] previamente entrenado para el reconocimiento de objetos en ImageNet [14]. (2) Tomamos muestras de fotogramas con una frecuencia de 1 de cada 10 fotogramas (aumentamos este intervalo de tiempo para tomas con mayor duración ya que enfrentamos problemas de memoria) y extraemos características de movimiento utilizando la red I3D de dos flujos previamente entrenada en Kinetics [ 10]. (3) Usamos Faster-RCNN [18] implementado en Detectron2 [54] para detectar instancias de personas en cada cuadro clave y mantener los cuatro cuadros delimitadores superiores por toma que tienen la mayor confianza junto con las respectivas representaciones regionales. Primero proyectamos todas las representaciones individuales a la misma dimensión inferior y realizamos la normalización L2. A continuación, consideramos la representación visual del plano como la suma de los vectores individuales. Para la modalidad de audio, utilizamos YAMNet previamente entrenado en el corpus AudioSet-YouTube [16] para clasificar segmentos de audio en 521 clases de audio (p. ej., herramientas, música, explosión); Para cada segmento de audio contenido en la escena, extraemos características de la penúltima capa. Finalmente, extraemos características textuales [42] de subtítulos y escenas de guiones utilizando el Codificador universal de oraciones (USE; [12]).


Para fines de evaluación, necesitamos saber qué tomas de la película son dignas de un avance o no. Hacemos esto segmentando el avance correspondiente en tomas y calculando para cada toma su similitud visual con todas las tomas de la película. Las tomas con valores de similitud más altos reciben etiquetas positivas (es decir, deberían estar en el tráiler). Sin embargo, dado que los avances también contienen tomas que no están en la película (por ejemplo, pantallas negras con texto o simplemente material que no apareció en la película final), también establecemos un umbral por debajo del cual no asignamos tomas del avance a la película. tiros. De esta manera, creamos etiquetas binarias estándar para tomas de películas.


Etiquetas de sentimientos Dado que TRIPOD no contiene anotaciones de sentimientos, en su lugar obtenemos etiquetas estándar a través de COSMIC [17], un marco guiado por sentido común con rendimiento de última generación para la clasificación de sentimientos y emociones en conversaciones en lenguaje natural. Específicamente, entrenamos a COSMIC en MELD [43], que contiene diálogos de episodios de la serie de televisión Friends y es más adecuado para nuestro dominio que otros conjuntos de datos de clasificación de sentimientos (por ejemplo, [9, 29]). Después del entrenamiento, usamos COSMIC para producir predicciones de sentimientos a nivel de oración para los guiones de TRIPOD. El sentimiento de una escena corresponde al sentimiento mayoritario de sus frases. Proyectamos etiquetas de sentimiento basadas en escenas en tomas utilizando el mismo mapeo uno a varios empleado para los TP.


Este documento está disponible en arxiv bajo licencia CC BY-SA 4.0 DEED.


[3] https://github.com/ppapalampidi/TRIPOD


[4] https://datashare.ed.ac.uk/handle/10283/3819


[5] http://www.cs.virginia.edu/pc9za/research/moviescope.html


[6] https://github.com/Breakthrough/PySceneDetect