Autores:
(1) Pinelopi Papalampidi, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;
(2) Frank Keller, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;
(3) Mirella Lapata, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo.
A geração do trailer requer a seleção de L tomadas de um filme completo de M tomadas (LM). Os filmes apresentam histórias complexas que podem conter subtramas distintas ou eventos que se desenrolam de forma não linear, enquanto eventos redundantes, chamados de “fillers” enriquecem a história principal. Portanto, não podemos assumir que planos consecutivos estejam necessariamente relacionados semanticamente. Para explorar melhor as relações entre eventos, representamos filmes como gráficos [42]. Seja G = (V, E) denota um gráfico onde os vértices V são tiros e as arestas E representam sua similaridade semântica. Consideramos ainda a ordem temporal original dos planos em G, permitindo apenas bordas direcionadas dos planos anteriores para os futuros. G é descrito por uma matriz de transição triangular superior T , que registra a probabilidade de transição do disparo i para cada disparo futuro j.
Dentro de G, assumimos que algumas tomadas descrevem eventos-chave do filme (círculos grossos na Figura 2), enquanto todas as tomadas têm um sentimento (positivo ou negativo), cuja intensidade é indicada por uma pontuação (tons de verde/vermelho na Figura 2). . Propomos um algoritmo para percorrer G e selecionar sequências de cenas de trailer. A seguir, primeiro descrevemos esse algoritmo (Seção 3.1) e depois discutimos como o grafo G é aprendido e os principais eventos são detectados via identificação TP [41] (Seção 3.2). Finalmente, também explicamos como são previstas as pontuações de sentimento baseadas em disparos (Seção 3.5).
Selecionamos L tomadas no total (dependendo do comprimento do trailer alvo) e recuperamos uma sequência de trailer proposta conforme representado na Figura 2 (linha em negrito). Em cada etapa, acompanhamos o fluxo de sentimento criado e os TPs identificados até o momento (linhas 10 e 13–14 no Algoritmo 1, respectivamente). Um evento TP foi selecionado para apresentação no trailer se uma cena ou seus vizinhos imediatos foram adicionados ao caminho.
O modelo baseado em vídeo pressupõe acesso a rótulos TP no nível da cena. No entanto, o único conjunto de dados para identificação de TP que conhecemos é o TRIPOD [41], que contém rótulos de nível de cena baseados em roteiros. Para obter rótulos mais refinados, projetamos anotações baseadas em cena nas tomadas seguindo um mapeamento simples de um para muitos (consulte a Seção 4 para obter detalhes). Como nosso sinal de treinamento é inevitavelmente barulhento, levantamos a hipótese de que o acesso aos roteiros encorajaria o modelo baseado em vídeo a selecionar tomadas mais representativas para cada TP. Em outras palavras, os roteiros representam conhecimento privilegiado e um sinal de supervisão implícito, ao mesmo tempo que aliviam a necessidade de pré-processamento adicional durante a inferência. Além disso, os roteiros fornecem uma riqueza de informações adicionais, por exemplo, sobre personagens e seus papéis em uma cena, ou suas ações e emoções (transmitidas por falas que descrevem o que a câmera vê). Caso contrário, essas informações poderiam ser difíceis de localizar com precisão no vídeo. Além disso, corpora de texto não rotulado de roteiros são relativamente fáceis de obter e podem ser usados para pré-treinar nossa rede.
Descrevemos agora nosso regime de treinamento conjunto para as duas redes que encapsulam diferentes visões do filme em termos de fluxos de dados (multimodal vs. somente texto) e sua segmentação em unidades semânticas (planos vs. cenas).
Perda de Consistência de Representação Propomos usar uma segunda perda de regularização entre as duas redes para também reforçar a consistência entre as duas representações baseadas em gráficos (ou seja, em tomadas de vídeo e cenas de roteiro). O objetivo dessa perda é duplo: melhorar as previsões de TP para as duas redes, conforme mostrado em trabalhos anteriores sobre aprendizagem de representação contrastiva [38, 39, 48], e também para ajudar a aprender conexões mais precisas entre os disparos (lembre-se de que o disparo gráfico baseado serve como entrada para nosso algoritmo de geração de trailers; Em comparação com as cenas do roteiro, que descrevem eventos independentes em um filme, as tomadas de vídeo duram apenas alguns segundos e dependem do contexto circundante para seu significado. Nossa hipótese é que, ao impor a vizinhança do gráfico para uma cena para preservar a semântica semelhante à cena do roteiro correspondente, encorajaremos a seleção de vizinhos apropriados no gráfico baseado na cena.
O pré-treinamento visa aprender melhores representações de cenas de roteiros que sejam mais acessíveis do que vídeos de filmes (por exemplo, menos problemas de direitos autorais e menos sobrecarga computacional), na esperança de que esse conhecimento seja transferido para a rede baseada em vídeo através de nossas perdas de consistência.
Finalmente, nosso modelo leva em consideração como o sentimento flui de uma cena para a outra. Prevemos pontuações de sentimento por disparo com a mesma arquitetura conjunta (Seção 3.3) e regime de treinamento que usamos para identificação de TP. A rede baseada em vídeo é treinada em cenas com rótulos de sentimento (ou seja, positivo, negativo, neutro), enquanto a rede baseada em roteiro é treinada em cenas com rótulos de sentimento (a Seção 4 explica como os rótulos são obtidos). Após o treinamento, prevemos uma distribuição de probabilidade sobre os rótulos de sentimento por disparo para capturar o fluxo de sentimento e discriminar entre disparos de alta e baixa intensidade (consulte o Apêndice para obter detalhes).
Este artigo está disponível no arxiv sob licença CC BY-SA 4.0 DEED.