Auteurs:
(1) Pinelopi Papalampidi, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;
(2) Frank Keller, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;
(3) Mirella Lapata, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg.
Métriques d'évaluation Des travaux antérieurs [41] évaluent les performances des modèles d'identification TP en termes de trois métriques : Accord total (TA), c'est-à-dire le pourcentage de scènes TP correctement identifiées, Accord partiel (PA), c'est-à-dire le pourcentage de TP. les événements pour lesquels au moins une scène de référence est identifiée, et la distance (D), c'est-à-dire la distance minimale en nombre de scènes entre l'ensemble de scènes prévu et la scène de référence pour un TP donné, normalisée par la longueur du scénario. Nous rapportons les résultats avec la métrique d’accord partiel. Nous ne pouvons plus utiliser un accord total, puisque nous évaluons les plans (plutôt que les scènes) par rapport aux étiquettes de référence argent (plutôt que or) et considérons par conséquent tous les plans d'une scène comme étant d'égale importance. Nous n’utilisons pas non plus la métrique de distance car elle donne des résultats très similaires et ne permet pas de distinguer les variantes du modèle.
Hyperparamètres Suite à des travaux antérieurs [42], nous projetons tous les types de caractéristiques (c'est-à-dire textuelles, visuelles et audio) dans la même dimension inférieure de 128. Nous constatons que des dimensions plus grandes augmentent considérablement le nombre de paramètres et donnent des résultats inférieurs, probablement en raison de petite taille d’ensemble de données.
Nous contextualisons les scènes (par rapport au scénario) et les plans (par rapport à la vidéo) à l'aide d'encodeurs transformateurs. Nous avons expérimenté avec 2, 3, 4, 5 et 6 couches dans l'encodeur et obtenu les meilleurs résultats avec 3 couches. Pour la dimension feed forward (FF), nous avons expérimenté à la fois une taille standard de 2 048 et une taille plus petite de 1 024 et avons constaté que la première fonctionnait mieux. Nous utilisons un autre encodeur de transformateur pour calculer la représentation d'une scène à partir d'une séquence de représentations de phrases d'entrée. Cet encodeur a 4 couches et 1 024 dimensions FF. Les deux encodeurs emploient 8 têtes d’attention et 0,3 décrochage.
Lors de la sparsification des graphiques (c'est-à-dire la sélection des meilleurs voisins), nous considérons différentes options de voisinage pour les réseaux basés sur les scènes et les plans en raison de leurs différentes granularité et taille. Suite à [42], nous considérons [1–6] voisins pour le réseau de scènes et nous augmentons la taille du quartier à [6–12] pour le réseau de plans.
Cet article est disponible sur arxiv sous licence CC BY-SA 4.0 DEED.