Autores:
(1) Pinelopi Papalampidi, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;
(2) Frank Keller, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo;
(3) Mirella Lapata, Instituto de Lenguaje, Cognición y Computación, Facultad de Informática, Universidad de Edimburgo.
Métricas de evaluación El trabajo anterior [41] evalúa el desempeño de los modelos de identificación de TP en términos de tres métricas: Acuerdo total (TA), es decir, el porcentaje de escenas de TP que se identifican correctamente, Acuerdo parcial (PA), es decir, el porcentaje de TP eventos para los cuales se identifica al menos una escena estándar de oro, y Distancia (D), es decir, la distancia mínima en número de escenas entre el conjunto de escenas predicho y el estándar de oro para un TP determinado, normalizado por la duración del guión. Reportamos resultados con la métrica de acuerdo parcial. Ya no podemos utilizar el acuerdo total, ya que evaluamos las etiquetas estándar de plata (en lugar de oro) para las tomas (en lugar de las escenas) y, como resultado, consideramos todas las tomas dentro de una escena igualmente importantes. Tampoco utilizamos la métrica de distancia, ya que produce resultados muy similares y no ayuda a discriminar entre variantes del modelo.
Hiperparámetros Siguiendo trabajos anteriores [42], proyectamos todo tipo de características (es decir, textuales, visuales y de audio) a la misma dimensión inferior de 128. Descubrimos que dimensiones más grandes aumentan considerablemente el número de parámetros y producen resultados inferiores, posiblemente debido a tamaño de conjunto de datos pequeño.
Contextualizamos escenas (respecto al guión) y planos (respecto al vídeo) mediante codificadores transformadores. Experimentamos con 2, 3, 4, 5 y 6 capas en el codificador y obtuvimos mejores resultados con 3 capas. Para la dimensión de avance (FF), experimentamos con un tamaño estándar de 2048 y un tamaño más pequeño de 1024 y descubrimos que el primero funciona mejor. Usamos otro codificador transformador para calcular la representación de una escena a partir de una secuencia de representaciones de oraciones de entrada. Este codificador tiene 4 capas y una dimensión de 1024 FF. Ambos codificadores emplean 8 cabezales de atención y 0,3 abandonos.
Durante la dispersión de gráficos (es decir, la selección de los k vecinos principales), consideramos diferentes opciones de vecindad para las redes basadas en escenas y planos debido a su diferente granularidad y tamaño. Siguiendo [42], consideramos [1–6] vecinos para la red de escena y aumentamos el tamaño del vecindario a [6–12] para la red de plano.
Este documento está disponible en arxiv bajo licencia CC BY-SA 4.0 DEED.