Autores:
(1) Pinelopi Papalampidi, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;
(2) Frank Keller, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo;
(3) Mirella Lapata, Instituto de Linguagem, Cognição e Computação, Escola de Informática, Universidade de Edimburgo.
Métricas de Avaliação Trabalhos anteriores [41] avaliam o desempenho de modelos de identificação de TP em termos de três métricas: Concordância Total (TA), ou seja, a porcentagem de cenas TP que são identificadas corretamente, Concordância Parcial (PA), ou seja, a porcentagem de cenas TP eventos para os quais pelo menos uma cena padrão-ouro é identificada, e Distância (D), ou seja, a distância mínima em número de cenas entre o conjunto de cenas previsto e padrão-ouro para um determinado TP, normalizado pela duração do roteiro. Relatamos resultados com a métrica de concordância parcial. Não podemos mais usar a concordância total, uma vez que avaliamos os rótulos do padrão prata (em vez do ouro) para tomadas (em vez de cenas) e, como resultado, consideramos todas as tomadas dentro de uma cena igualmente importantes. Também não utilizamos a métrica de distância, uma vez que produz resultados muito semelhantes e não ajuda a discriminar entre variantes do modelo.
Hiperparâmetros Seguindo o trabalho anterior [42], projetamos todos os tipos de recursos (ou seja, textuais, visuais e de áudio) para a mesma dimensão inferior de 128. Descobrimos que dimensões maiores aumentam consideravelmente o número de parâmetros e produzem resultados inferiores, possivelmente devido a tamanho pequeno do conjunto de dados.
Contextualizamos cenas (em relação ao roteiro) e tomadas (em relação ao vídeo) usando codificadores transformadores. Experimentamos 2, 3, 4, 5 e 6 camadas no codificador e obtivemos melhores resultados com 3 camadas. Para a dimensão feed forward (FF), experimentamos um tamanho padrão de 2.048 e um tamanho menor de 1.024 e descobrimos que o primeiro funciona melhor. Usamos outro codificador transformador para calcular a representação de uma cena a partir de uma sequência de representações de sentenças de entrada. Este codificador possui 4 camadas e dimensão de 1.024 FF. Ambos os codificadores empregam 8 cabeças de atenção e 0,3 dropout.
Durante a esparsificação do gráfico (ou seja, seleção dos k vizinhos principais), consideramos diferentes opções de vizinhança para as redes baseadas em cena e tomada devido à sua granularidade e tamanho diferentes. Seguindo [42], consideramos [1–6] vizinhos para a rede de cena e aumentamos o tamanho da vizinhança para [6–12] para a rede de tomadas.
Este artigo está disponível no arxiv sob licença CC BY-SA 4.0 DEED.