paint-brush
Geração de trailer de filme por meio de decomposição de tarefas: configuração experimentalpor@kinetograph

Geração de trailer de filme por meio de decomposição de tarefas: configuração experimental

Muito longo; Para ler

Neste artigo, os pesquisadores modelam filmes como gráficos para gerar trailers, identificando a estrutura narrativa e prevendo o sentimento, superando os métodos supervisionados.
featured image - Geração de trailer de filme por meio de decomposição de tarefas: configuração experimental
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Pinelopi Papalampidi, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;

(2) Frank Keller, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;

(3) Mirella Lapata, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo.

Tabela de links

4. Configuração Experimental

Conjuntos de dados Nosso modelo foi treinado em TRIPODL, uma versão expandida do conjunto de dados TRIPOD [41, 42] que contém 122 roteiros com anotações TP padrão prata (nível de cena) [3] e os vídeos correspondentes. Para cada filme, coletamos o maior número possível de trailers do YouTube, incluindo trailers oficiais e (sérios) baseados em fãs, ou trailers modernos de filmes mais antigos. Para avaliar os trailers produzidos pelo nosso algoritmo, também coletamos um novo conjunto de 41 filmes. Esses filmes foram selecionados do conjunto de dados Moviescope[5] [11], que contém trailers oficiais de filmes. O conjunto suspenso não contém nenhuma informação adicional, como roteiros ou anotações de TP. As estatísticas do TRIPODL são apresentadas na Tabela 1.


Processamento de filmes e trailers A abordagem de modelagem apresentada nas seções anteriores pressupõe que conhecemos a correspondência entre as cenas do roteiro e as tomadas do filme. Obtemos esse mapeamento alinhando automaticamente o diálogo nos roteiros com legendas usando Dynamic Time Warping (DTW; [36, 42]). Primeiro segmentamos o vídeo em cenas com base nesse mapeamento e, em seguida, segmentamos cada cena em tomadas usando PySceneDetect[6]. As tomadas com menos de 100 quadros no total são muito curtas para serem processadas e exibidas como parte do trailer e, portanto, são descartadas.


Além disso, para cada tomada extraímos recursos visuais e de áudio. Consideramos três tipos diferentes de recursos visuais:


(1) Amostramos um quadro-chave por foto e extraímos recursos usando ResNeXt-101 [56] pré-treinado para reconhecimento de objetos no ImageNet [14]. (2) Amostramos quadros com uma frequência de 1 em cada 10 quadros (aumentamos esse intervalo de tempo para fotos com maior duração, pois enfrentamos problemas de memória) e extraímos recursos de movimento usando a rede I3D de dois fluxos pré-treinada em Kinetics [ 10]. (3) Usamos Faster-RCNN [18] implementado em Detectron2 [54] para detectar instâncias de pessoas em cada quadro-chave e manter as quatro caixas delimitadoras principais por disparo que têm a maior confiança junto com as respectivas representações regionais. Primeiro projetamos todas as representações individuais para a mesma dimensão inferior e realizamos a normalização L2. A seguir, consideramos a representação visual da cena como a soma dos vetores individuais. Para a modalidade de áudio, usamos o YAMNet pré-treinado no corpus AudioSet-YouTube [16] para classificar segmentos de áudio em 521 classes de áudio (por exemplo, ferramentas, música, explosão); para cada segmento de áudio contido na cena, extraímos características da penúltima camada. Por fim, extraímos características textuais [42] de legendas e cenas de roteiro usando o Universal Sentence Encoder (USE; [12]).


Para fins de avaliação, precisamos saber quais cenas do filme merecem ou não um trailer. Fazemos isso segmentando o trailer correspondente em tomadas e calculando para cada tomada sua semelhança visual com todas as tomadas do filme. As cenas com valores de similaridade mais altos recebem rótulos positivos (ou seja, deveriam estar no trailer). No entanto, como os trailers também contêm cenas que não estão no filme (por exemplo, telas pretas com texto ou simplesmente material que não apareceu no filme final), também definimos um limite abaixo do qual não mapeamos as cenas do trailer para o filme. tiros. Dessa forma, criamos rótulos binários padrão prata para cenas de filmes.


Rótulos de sentimento Como o TRIPOD não contém anotações de sentimento, em vez disso, obtemos rótulos padrão prata via COSMIC [17], uma estrutura guiada pelo bom senso com desempenho de última geração para classificação de sentimentos e emoções em conversas em linguagem natural. Especificamente, treinamos COSMIC no MELD [43], que contém diálogos de episódios da série de TV Friends e é mais adequado ao nosso domínio do que outros conjuntos de dados de classificação de sentimento (por exemplo, [9, 29]). Após o treinamento, usamos o COSMIC para produzir previsões de sentimento em nível de frase para os roteiros do TRIPOD. O sentimento de uma cena corresponde ao sentimento majoritário de suas sentenças. Projetamos rótulos de sentimento baseados em cena nas tomadas usando o mesmo mapeamento um-para-muitos empregado para TPs.


Este artigo está disponível no arxiv sob licença CC BY-SA 4.0 DEED.


[3] https://github.com/ppapalampidi/TRIPOD


[4] https://datashare.ed.ac.uk/handle/10283/3819


[5] http://www.cs.virginia.edu/pc9za/research/moviescope.html


[6] https://github.com/Breakthrough/PySceneDetect