Autores:
(1) Pinelopi Papalampidi, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;
(2) Frank Keller, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;
(3) Mirella Lapata, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo.
Utilidade da Destilação de Conhecimento Primeiro investigamos se melhoramos a identificação de TP, pois é fundamental para a tarefa de geração de reboques. Dividimos o conjunto de filmes com rótulos TP de nível de cena verdadeiros em conjunto de desenvolvimento e teste e selecionamos as 5 principais (@5) e as 10 principais (@10) cenas por TP em um filme. Como métrica de avaliação, consideramos Concordância Parcial (PA; [41]), que mede a porcentagem de TPs para os quais um modelo identifica corretamente pelo menos uma tomada verdadeira entre 5 ou 10 tomadas selecionadas do filme (veja o Apêndice para detalhes ).
A Tabela 2 resume nossos resultados no conjunto de teste. Consideramos os seguintes sistemas de comparação: Random seleciona tiros de seções distribuídas uniformemente (média de 10 execuções); A teoria atribui TP às tomadas de acordo com a teoria do roteiro (por exemplo, “Oportunidade” ocorre em 10% do filme, “Mudança de planos” em 25%, etc.); A distribuição seleciona as tacadas com base na posição esperada nos dados de treinamento; GRAPHTP é o modelo original de [42] treinado em roteiros (projetamos previsões de TP no nível da cena nas tomadas); Transformer é um modelo básico sem informações relacionadas a gráficos. Utilizamos nosso próprio modelo, GRAPHTRAILER, em diversas variantes para identificação de TP: sem e com acesso a roteiros, treinados apenas com a perda de consistência de predição (P), perdas de predição e de representação (P + R), e nosso regime de treinamento conjunto contrastivo .
Observamos que o GRAPHTRAILER supera todas as linhas de base, assim como o modelo Transformer. Embora o último codifique dependências de longo alcance entre disparos, o GRAPHTRAILER também se beneficia da codificação direta de conexões esparsas aprendidas no gráfico. Além disso, a destilação assíncrona do conhecimento através da perda de consistência de predição (P) melhora ainda mais o desempenho, sugerindo que o conhecimento contido nos roteiros é complementar ao que pode ser extraído do vídeo. Observe que quando adicionamos a perda de consistência da representação (P + R), o desempenho se deteriora por uma grande margem, enquanto a abordagem de treinamento proposta (articulação contrastiva) tem melhor desempenho. Finalmente, a pré-formação oferece ganhos adicionais, embora pequenos, o que sublinha os benefícios da rede baseada em guiões.
Qualidade do Trailer Avaliamos agora o algoritmo de geração de trailer do GRAPHTRAILER no conjunto de 41 filmes (ver Tabela 1). Como métrica de avaliação, utilizamos a precisão, ou seja, a porcentagem de tomadas de trailer corretamente identificadas e consideramos um orçamento total de 10 tomadas para os trailers, a fim de atingir a duração desejada (∼2 minutos).
Comparamos o GRAPHTRAILER com várias abordagens não supervisionadas (primeiro bloco na Tabela 3), incluindo: Seleção aleatória entre todos os disparos e entre TPs identificados pelo GRAPHTRAILER; também implementamos dois sistemas baseados em gráficos baseados em um gráfico totalmente conectado, onde os nós são tiros e as arestas denotam o grau de similaridade entre eles. Este gráfico não tem conhecimento de TPs, é construído calculando a similaridade entre representações multimodais genéricas. TEXTRANK [35] opera sobre este gráfico para selecionar tomadas com base em sua centralidade, enquanto GRAPHTRAILER sem TPs percorre o gráfico com TP e critérios de sentimento removidos (Equação 2). Para os sistemas não supervisionados que incluem estocasticidade e produzem propostas (Random, GRAPHTRAILER), consideramos o melhor trailer de proposta. O segundo bloco da Tabela 3 apresenta abordagens supervisionadas que utilizam rótulos de reboques ruidosos para treinamento. Isso inclui o CCANet [53], que considera apenas informações visuais e calcula a atenção cruzada entre as cenas do filme e do trailer, e um Transformer vanilla treinado para a tarefa binária de identificar se uma cena deve estar no trailer sem considerar roteiros, sentimentos ou TPs. . O GRAPHTRAILER supervisionado consiste em nossa rede baseada em vídeo treinada com os mesmos dados do Transformer.
GRAPHTRAILER tem melhor desempenho entre métodos não supervisionados. Curiosamente, o TEXTRANK é pior que o aleatório, ilustrando que tarefas como a geração de trailers não podem ser vistas como problemas de resumo padrão. GRAPHTRAILER sem TPs ainda tem melhor desempenho do que TEXTRANK e seleção aleatória de TP.[7] No que diz respeito às abordagens supervisionadas, verificamos que a utilização de todas as modalidades com arquitetura padrão (Transformer) leva a um melhor desempenho do que modelos sofisticados que utilizam similaridade visual (CCANet). Ao adicionar informações relacionadas ao gráfico (GRAPHTRAILER Supervisionado), obtemos melhorias adicionais.
Realizamos dois estudos de ablação no conjunto de desenvolvimento do GRAPHTRAILER. O primeiro estudo visa avaliar como os diferentes regimes de formação da rede dupla influenciam o desempenho da geração de reboques a jusante. Observamos na Tabela 4 que o treinamento assíncrono não oferece nenhuma melhoria perceptível em relação ao modelo base. No entanto, quando treinamos conjuntamente as duas redes (baseadas em vídeo e roteiro) usando perdas de consistência de previsão e representação, o desempenho aumenta quase 3%. Um pequeno aumento adicional é observado quando a rede baseada em roteiro é pré-treinada com mais dados.
O segundo estudo de ablação diz respeito aos critérios utilizados para realizar passeios aleatórios no grafo G. Conforme mostrado na Tabela 5, quando forçamos os nós no caminho selecionado a estarem próximos dos eventos-chave (similaridade + TPs), o desempenho melhora. Quando confiamos apenas no sentimento (similaridade + sentimento), o desempenho cai ligeiramente. Isto sugere que, em contraste com abordagens anteriores que se concentram principalmente na atratividade visual superficial [53, 57] ou na análise de sentimento audiovisual [47], as informações de sentimento por si só não são suficientes e podem promover valores discrepantes que não se encaixam bem em um trailer. Por outro lado, quando a informação de sentimento é combinada com o conhecimento sobre a estrutura narrativa (similaridade + TPs + sentimento), observamos a maior precisão. Isto valida ainda mais a nossa hipótese de que as duas teorias sobre a criação de trailers (isto é, baseadas na estrutura narrativa e nas emoções) são complementares e podem ser combinadas.
Finalmente, como temos vários trailers por filme (para o conjunto de desenvolvimento), podemos medir a sobreposição entre suas tomadas (limite superior). A sobreposição média é de 86,14%, demonstrando um bom acordo entre os fabricantes de reboques e uma grande lacuna entre o desempenho humano e os modelos automáticos.
Finalmente, como temos vários trailers por filme (para o conjunto de desenvolvimento), podemos medir a sobreposição entre suas tomadas (limite superior). A sobreposição média é de 86,14%, demonstrando um bom acordo entre os fabricantes de reboques e uma grande lacuna entre o desempenho humano e os modelos automáticos.
Avaliação Humana Também realizamos um estudo de avaliação humana para avaliar a qualidade dos trailers gerados. Para avaliação humana, incluímos a seleção aleatória sem TPs como limite inferior, os dois modelos não supervisionados de melhor desempenho (ou seja, GRAPHTRAILER com e sem TPs) e dois modelos supervisionados: CCANet, que é o estado da arte anterior para geração de reboques, e a versão supervisionada do nosso modelo, que é o modelo com melhor desempenho de acordo com métricas automáticas.[8] Geramos trailers para todos os filmes do set suspenso. Em seguida, pedimos aos funcionários da Amazon Mechanical Turk (AMT) que assistissem a todos os trailers de um filme, respondessem a perguntas relacionadas às informações fornecidas (Q1) e à atratividade (Q2) do trailer e selecionassem o melhor e o pior trailer. Coletamos avaliações de cinco jurados diferentes por filme.
A Tabela 6 mostra que o GRAPHTRAILER com TPs fornece, em média, reboques mais informativos (Q1) e atraentes (Q2) do que todos os outros sistemas. Embora o GRAPHTRAILER sem TPs e o GRAPHTRAILER Supervisionado sejam mais frequentemente selecionados como os melhores, eles também são escolhidos com a mesma frequência como os piores. Quando calculamos pontuações padronizadas (pontuações z) usando a escala do melhor-pior [31], o GRAPHTRAILER com TPs atinge o melhor desempenho (observe que também raramente é selecionado como pior) seguido pelo GRAPHTRAILER Supervisionado. Curiosamente, GRAPHTRAILER sem TPs é mais frequentemente selecionado como o melhor (24,40%), o que sugere que a abordagem geral de modelar filmes como gráficos e realizar passeios aleatórios em vez de selecionar tomadas individualmente ajuda a criar trailers coerentes. No entanto, o mesmo modelo é também frequentemente seleccionado como o pior, o que mostra que esta abordagem ingénua por si só não pode garantir reboques de boa qualidade.
Incluímos exemplos de vídeos de trailers gerados com base em nossa abordagem no Material Suplementar. Além disso, fornecemos um exemplo gráfico passo a passo de nosso algoritmo de travessia de gráfico no Apêndice.
Alerta de spoiler! Nosso modelo não evita explicitamente spoilers nos trailers gerados. Experimentamos um critério relacionado a spoiler ao percorrer o gráfico do filme no Algoritmo 1. Especificamente, adicionamos uma penalidade ao selecionar cenas que estão em vizinhanças do gráfico “sensíveis a spoiler”. Identificamos essas vizinhanças medindo o caminho mais curto dos dois últimos TPs, que são, por definição, os maiores spoilers de um filme. No entanto, esta variante do nosso algoritmo resultou em desempenho inferior e, portanto, não a levamos adiante. Acreditamos que tal critério não seja benéfico para propor sequências de trailers, pois desencoraja a modelo de selecionar tomadas emocionantes dos trechos mais recentes do filme. Essas cenas de alta tensão são importantes para a criação de trailers interessantes e estão de fato incluídas em trailers da vida real. Mais de um terço dos trailers profissionais em nosso conjunto de dados contém cenas dos dois últimos TPs (“Grande revés”, “Clímax”). Discutimos isso mais detalhadamente no Apêndice.
Também inspecionamos manualmente os trailers gerados e descobrimos que spoilers não são muito comuns (ou seja, identificamos um spoiler importante em uma amostra aleatória de 12 trailers do conjunto de teste), possivelmente porque a probabilidade de selecionar um spoiler principal é geralmente baixa. E mesmo que uma cena sensível a spoiler seja incluída, quando tirada do contexto pode não ser suficiente para revelar o final de um filme. No entanto, deixamos para trabalhos futuros a investigação de técnicas de identificação de spoiler mais elaboradas, que podem ser facilmente integradas ao nosso algoritmo como critérios extras.
Este artigo está disponível no arxiv sob licença CC BY-SA 4.0 DEED.
[7] O desempenho no conjunto de testes é inferior porque consideramos apenas os rótulos dos trailers oficiais, enquanto o conjunto de desenvolvimento contém vários trailers.
[8] Não incluímos trailers verdadeiros na avaliação humana, uma vez que são pós-processados (ou seja, montagem, narração, música) e, portanto, não são diretamente comparáveis aos automáticos.