paint-brush
Génération de bandes-annonces de film via la décomposition des tâches : détails de mise en œuvrepar@kinetograph

Génération de bandes-annonces de film via la décomposition des tâches : détails de mise en œuvre

Trop long; Pour lire

Dans cet article, les chercheurs modélisent les films sous forme de graphiques pour générer des bandes-annonces, identifiant la structure narrative et prédisant les sentiments, dépassant ainsi les méthodes supervisées.
featured image - Génération de bandes-annonces de film via la décomposition des tâches : détails de mise en œuvre
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Pinelopi Papalampidi, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(2) Frank Keller, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg ;

(3) Mirella Lapata, Institut du langage, de la cognition et du calcul, École d'informatique, Université d'Édimbourg.

Tableau des liens

B. Détails de mise en œuvre

Métriques d'évaluation Des travaux antérieurs [41] évaluent les performances des modèles d'identification TP en termes de trois métriques : Accord total (TA), c'est-à-dire le pourcentage de scènes TP correctement identifiées, Accord partiel (PA), c'est-à-dire le pourcentage de TP. les événements pour lesquels au moins une scène de référence est identifiée, et la distance (D), c'est-à-dire la distance minimale en nombre de scènes entre l'ensemble de scènes prévu et la scène de référence pour un TP donné, normalisée par la longueur du scénario. Nous rapportons les résultats avec la métrique d’accord partiel. Nous ne pouvons plus utiliser un accord total, puisque nous évaluons les plans (plutôt que les scènes) par rapport aux étiquettes de référence argent (plutôt que or) et considérons par conséquent tous les plans d'une scène comme étant d'égale importance. Nous n’utilisons pas non plus la métrique de distance car elle donne des résultats très similaires et ne permet pas de distinguer les variantes du modèle.


Hyperparamètres Suite à des travaux antérieurs [42], nous projetons tous les types de caractéristiques (c'est-à-dire textuelles, visuelles et audio) dans la même dimension inférieure de 128. Nous constatons que des dimensions plus grandes augmentent considérablement le nombre de paramètres et donnent des résultats inférieurs, probablement en raison de petite taille d’ensemble de données.


Nous contextualisons les scènes (par rapport au scénario) et les plans (par rapport à la vidéo) à l'aide d'encodeurs transformateurs. Nous avons expérimenté avec 2, 3, 4, 5 et 6 couches dans l'encodeur et obtenu les meilleurs résultats avec 3 couches. Pour la dimension feed forward (FF), nous avons expérimenté à la fois une taille standard de 2 048 et une taille plus petite de 1 024 et avons constaté que la première fonctionnait mieux. Nous utilisons un autre encodeur de transformateur pour calculer la représentation d'une scène à partir d'une séquence de représentations de phrases d'entrée. Cet encodeur a 4 couches et 1 024 dimensions FF. Les deux encodeurs emploient 8 têtes d’attention et 0,3 décrochage.


Lors de la sparsification des graphiques (c'est-à-dire la sélection des meilleurs voisins), nous considérons différentes options de voisinage pour les réseaux basés sur les scènes et les plans en raison de leurs différentes granularité et taille. Suite à [42], nous considérons [1–6] voisins pour le réseau de scènes et nous augmentons la taille du quartier à [6–12] pour le réseau de plans.



Figure 4. Répartition des plans de bande-annonce correspondant aux différentes sections d'un film (ensemble de développement), telle que déterminée par les TP. Les plans de bande-annonce proviennent de toutes les parties du film, même de la fin, bien que la majorité soient du début et du milieu.


Tableau 7. Pourcentage (%) de bandes-annonces qui incluent au moins un plan étiqueté comme un type spécifique de TP sur l'ensemble de développement. Les deux premiers TP (qui présentent une introduction à l'histoire) apparaissent plus fréquemment dans les bandes-annonces, surtout en comparaison avec les deux derniers, qui contiennent souvent des spoilers majeurs.


Tableau 8. Intensité moyenne absolue du sentiment par section de bande-annonce, lorsque nous divisons les bandes-annonces en trois parties paires (ensemble de développement).



Cet article est disponible sur arxiv sous licence CC BY-SA 4.0 DEED.