Autores:
(1) Pinelopi Papalampidi, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;
(2) Frank Keller, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;
(3) Mirella Lapata, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo.
Os trailers de filmes desempenham múltiplas funções: apresentam a história aos espectadores, transmitem o clima e o estilo artístico do filme e incentivam o público a assistir ao filme. Estas diversas funções tornam a geração automática de reboques uma tarefa desafiadora. Nós o decompomos em duas subtarefas: identificação da estrutura narrativa e previsão de sentimentos. Modelamos filmes como grafos, onde os nós são planos e as arestas denotam relações semânticas entre eles. Aprendemos essas relações através de treinamento contrastivo conjunto que aproveita informações textuais privilegiadas (por exemplo, personagens, ações, situações) de roteiros. Um algoritmo não supervisionado então percorre o gráfico e gera trailers que os juízes humanos preferem aos gerados por abordagens supervisionadas competitivas.
Trailers são vídeos curtos usados para promover filmes e muitas vezes são essenciais para o sucesso comercial. Embora sua função principal seja comercializar o filme para diversos públicos, os trailers também são uma forma de arte persuasiva e narrativa promocional, projetada para fazer com que os espectadores queiram ver o filme. Embora a confecção de trailers seja considerada uma atividade artística, a indústria cinematográfica desenvolveu estratégias para orientar a construção de trailers. De acordo com uma escola de pensamento, os trailers devem apresentar uma estrutura narrativa, composta por três atos[1]. O primeiro ato estabelece os personagens e a configuração da história, o segundo ato introduz o conflito principal e o terceiro ato aumenta as apostas e fornece teasers do final. Outra escola de pensamento está mais preocupada com o clima do trailer, conforme definido pelos altos e baixos da história[2]. De acordo com esta abordagem, os trailers devem ter intensidade média no início para cativar os espectadores, seguida de baixa intensidade para fornecer informações importantes sobre a história e, em seguida, aumentar progressivamente a intensidade até atingir o clímax no final do trailer.
Para criar trailers automaticamente, precisamos realizar tarefas de baixo nível, como identificação de pessoas, reconhecimento de ações e previsão de sentimentos, mas também tarefas de alto nível, como compreender as conexões entre eventos e sua causalidade, bem como fazer inferências sobre os personagens e seus ações. Dada a complexidade da tarefa, aprender diretamente todo esse conhecimento a partir de pares filme-trailer exigiria muitos milhares de exemplos, cujo processamento e anotação seriam um desafio. Portanto, não é surpreendente que as abordagens anteriores à geração automática de reboques [24,46,53] tenham se concentrado exclusivamente em recursos audiovisuais.
Inspirados no processo criativo dos editores humanos, adotamos uma abordagem bottom-up para a geração de trailers, que decompomos em duas subtarefas ortogonais, mais simples e bem definidas. A primeira é a identificação da estrutura narrativa, ou seja, resgatar os acontecimentos mais importantes do filme. Uma teoria comumente adotada na escrita de roteiros [13,22,51] sugere que existem cinco tipos de eventos-chave na trama de um filme, conhecidos como pontos de virada (TPs; veja suas definições na Figura 1). A segunda subtarefa é a previsão do sentimento, que vemos como uma aproximação do fluxo de intensidade entre as tomadas e as emoções evocadas.
Geramos trailers de propostas seguindo uma abordagem não supervisionada baseada em gráficos. Modelamos filmes como grafos cujos nós são tomadas e cujas bordas denotam conexões semânticas importantes entre tomadas (ver Figura 2). Além disso, os nós possuem rótulos que indicam se são eventos-chave (ou seja, TPs) e pontuações que sinalizam a intensidade do sentimento (positiva ou negativa). Nosso algoritmo percorre esse gráfico de filme para criar sequências de trailers. Estes poderiam ser usados como propostas a serem revisadas e modificadas por um editor humano.
Tanto as tarefas de identificação de TP quanto de previsão de sentimento podem se beneficiar de uma compreensão de nível inferior do conteúdo do filme. Na verdade, poderíamos empregar módulos prontos para uso para identificar personagens e lugares, reconhecer ações e localizar unidades semânticas. No entanto, tais abordagens aumentam substancialmente o tempo de pré-processamento e os requisitos de memória durante o treinamento e a inferência e sofrem com a propagação de erros. Em vez disso, propomos um regime de aprendizagem contrastivo, onde aproveitamos os roteiros como informação privilegiada, ou seja, informação disponível apenas no momento da formação. Os roteiros revelam como o filme é segmentado em cenas, quem são os personagens, quando e com quem estão falando, onde estão e o que estão fazendo (ou seja, “títulos de cena” explicam onde a ação ocorre enquanto “linhas de ação” descrevem o que a câmera vê). Especificamente, construímos duas redes individuais, uma rede textual baseada em roteiros e uma multimodal baseada em vídeo, e as treinamos em conjunto usando perdas contrastivas auxiliares. A rede textual também pode ser pré-treinada em grandes coleções de roteiros por meio de aprendizagem auto-supervisionada, sem a necessidade de coletar e processar os filmes correspondentes. Os resultados experimentais mostram que esta abordagem de treino contrastiva é benéfica, levando a trailers que são julgados favoravelmente pelos humanos em termos do seu conteúdo e atratividade.
Este artigo está disponível no arxiv sob licença CC BY-SA 4.0 DEED.
[1] https://www.studiobinder.com/blog/how-to-make-a-movie-trailer
[2] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-trailereditors-dream