paint-brush
Generación de avances de películas mediante descomposición de tareas: detalles de implementaciónpor@kinetograph

Generación de avances de películas mediante descomposición de tareas: detalles de implementación

Demasiado Largo; Para Leer

En este artículo, los investigadores modelan películas como gráficos para generar avances, identificar la estructura narrativa y predecir el sentimiento, superando los métodos supervisados.
featured image - Generación de avances de películas mediante descomposición de tareas: detalles de implementación
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Pinelopi Papalampidi, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;

(2) Frank Keller, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;

(3) Mirella Lapata, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo.

Tabla de enlaces

B. Detalles de implementación

Métricas de evaluación El trabajo anterior [41] evalúa el desempeño de los modelos de identificación de TP en términos de tres métricas: Acuerdo total (TA), es decir, el porcentaje de escenas de TP que se identifican correctamente, Acuerdo parcial (PA), es decir, el porcentaje de TP eventos para los cuales se identifica al menos una escena estándar de oro, y Distancia (D), es decir, la distancia mínima en número de escenas entre el conjunto de escenas predicho y el estándar de oro para un TP determinado, normalizado por la duración del guión. Reportamos resultados con la métrica de acuerdo parcial. Ya no podemos utilizar el acuerdo total, ya que evaluamos las etiquetas estándar de plata (en lugar de oro) para las tomas (en lugar de las escenas) y, como resultado, consideramos todas las tomas dentro de una escena igualmente importantes. Tampoco utilizamos la métrica de distancia, ya que produce resultados muy similares y no ayuda a discriminar entre variantes del modelo.


Hiperparámetros Siguiendo trabajos anteriores [42], proyectamos todo tipo de características (es decir, textuales, visuales y de audio) a la misma dimensión inferior de 128. Descubrimos que dimensiones más grandes aumentan considerablemente el número de parámetros y producen resultados inferiores, posiblemente debido a tamaño de conjunto de datos pequeño.


Contextualizamos escenas (respecto al guión) y planos (respecto al vídeo) mediante codificadores transformadores. Experimentamos con 2, 3, 4, 5 y 6 capas en el codificador y obtuvimos mejores resultados con 3 capas. Para la dimensión de avance (FF), experimentamos con un tamaño estándar de 2048 y un tamaño más pequeño de 1024 y descubrimos que el primero funciona mejor. Usamos otro codificador transformador para calcular la representación de una escena a partir de una secuencia de representaciones de oraciones de entrada. Este codificador tiene 4 capas y una dimensión de 1024 FF. Ambos codificadores emplean 8 cabezales de atención y 0,3 abandonos.


Durante la dispersión de gráficos (es decir, la selección de los k vecinos principales), consideramos diferentes opciones de vecindad para las redes basadas en escenas y planos debido a su diferente granularidad y tamaño. Siguiendo [42], consideramos [1–6] vecinos para la red de escena y aumentamos el tamaño del vecindario a [6–12] para la red de plano.



Figura 4. Distribución de los planos del tráiler correspondientes a diferentes secciones de una película (set de desarrollo) según lo determinado por los TP. Los planos del tráiler proceden de todas las partes de la película, incluso del final, aunque la mayoría son del principio y la mitad.


Tabla 7. Porcentaje (%) de trailers que incluyen al menos una toma etiquetada como un tipo específico de TP en el set de desarrollo. Los dos primeros TP (que presentan una introducción a la historia) aparecen con más frecuencia en los trailers, especialmente en comparación con los dos últimos, que a menudo contienen importantes spoilers.


Tabla 8. Intensidad de sentimiento absoluta promedio por sección del tráiler, cuando dividimos los tráilers en tres partes pares (conjunto de desarrollo).



Este documento está disponible en arxiv bajo licencia CC BY-SA 4.0 DEED.