paint-brush
Geração de trailer de filme por meio de decomposição de tarefas: detalhes de implementaçãopor@kinetograph

Geração de trailer de filme por meio de decomposição de tarefas: detalhes de implementação

Muito longo; Para ler

Neste artigo, os pesquisadores modelam filmes como gráficos para gerar trailers, identificando a estrutura narrativa e prevendo o sentimento, superando os métodos supervisionados.
featured image - Geração de trailer de filme por meio de decomposição de tarefas: detalhes de implementação
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Pinelopi Papalampidi, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;

(2) Frank Keller, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;

(3) Mirella Lapata, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo.

Tabela de Links

B. Detalhes de implementação

Métricas de Avaliação Trabalhos anteriores [41] avaliam o desempenho de modelos de identificação de TP em termos de três métricas: Concordância Total (TA), ou seja, a porcentagem de cenas TP que são identificadas corretamente, Concordância Parcial (PA), ou seja, a porcentagem de cenas TP eventos para os quais pelo menos uma cena padrão-ouro é identificada, e Distância (D), ou seja, a distância mínima em número de cenas entre o conjunto de cenas previsto e padrão-ouro para um determinado TP, normalizado pela duração do roteiro. Relatamos resultados com a métrica de concordância parcial. Não podemos mais usar a concordância total, uma vez que avaliamos os rótulos do padrão prata (em vez do ouro) para tomadas (em vez de cenas) e, como resultado, consideramos todas as tomadas dentro de uma cena igualmente importantes. Também não utilizamos a métrica de distância, uma vez que produz resultados muito semelhantes e não ajuda a discriminar entre variantes do modelo.


Hiperparâmetros Seguindo o trabalho anterior [42], projetamos todos os tipos de recursos (ou seja, textuais, visuais e de áudio) para a mesma dimensão inferior de 128. Descobrimos que dimensões maiores aumentam consideravelmente o número de parâmetros e produzem resultados inferiores, possivelmente devido a tamanho pequeno do conjunto de dados.


Contextualizamos cenas (em relação ao roteiro) e tomadas (em relação ao vídeo) usando codificadores transformadores. Experimentamos 2, 3, 4, 5 e 6 camadas no codificador e obtivemos melhores resultados com 3 camadas. Para a dimensão feed forward (FF), experimentamos um tamanho padrão de 2.048 e um tamanho menor de 1.024 e descobrimos que o primeiro funciona melhor. Usamos outro codificador transformador para calcular a representação de uma cena a partir de uma sequência de representações de sentenças de entrada. Este codificador possui 4 camadas e dimensão de 1.024 FF. Ambos os codificadores empregam 8 cabeças de atenção e 0,3 dropout.


Durante a esparsificação do gráfico (ou seja, seleção dos k vizinhos principais), consideramos diferentes opções de vizinhança para as redes baseadas em cena e tomada devido à sua granularidade e tamanho diferentes. Seguindo [42], consideramos [1–6] vizinhos para a rede de cena e aumentamos o tamanho da vizinhança para [6–12] para a rede de tomadas.



Figura 4. Distribuição de tomadas de trailer correspondentes a diferentes seções de um filme (conjunto de desenvolvimento), conforme determinado pelos TPs. As tomadas de trailer vêm de todas as partes do filme, até mesmo do final, embora a maioria seja do início e do meio.


Tabela 7. Porcentagem (%) de trailers que incluem pelo menos uma cena rotulada como um tipo específico de TP no set de desenvolvimento. Os dois primeiros TPs (que apresentam uma introdução à história) aparecem com mais frequência em trailers, principalmente em comparação com os dois últimos, que muitas vezes contêm grandes spoilers.


Tabela 8. Intensidade média absoluta de sentimento por seção do trailer, quando dividimos os trailers em três partes pares (conjunto de desenvolvimento).



Este artigo está disponível no arxiv sob licença CC BY-SA 4.0 DEED.