Autores:
(1) Dinesh Kumar Vishwakarma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia;
(2) Mayank Jindal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia
(3) Ayush Mittal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia
(4) Aditya Sharma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia.
Nesta parte, examinaremos várias arquiteturas de modelos em diferentes modalidades e pré-recursos de modelos fundidos. Posteriormente, verificamos nosso trabalho validando-o no conjunto de dados padrão LMTD-9, bem como em nosso conjunto de dados proposto. Finalmente, um estudo comparativo é discutido para explorar a robustez do nosso modelo. Todos os experimentos são realizados em estações de trabalho GPU com 128 GB de RAM DDR4 e configuração de GPU Nvidia Titan RTX (24 GB).
Para verificar nossa estrutura, utilizamos nosso conjunto de dados proposto e o conjunto de dados padrão LMTD-9 [2]. Detalhes abrangentes são mencionados a seguir:
EMTD: Nosso conjunto de dados proposto contém um conjunto de treinamento separado de 1.700 trailers exclusivos e um conjunto de validação de 300 trailers exclusivos, todos retirados do IMDB, conforme mencionado na Seção 3.
LMTD [16], [20] é um conjunto de dados de trailers de filmes em grande escala com vários rótulos, incluindo link de trailer, metadados de trailer, enredo/resumo, ID de trailer exclusivo que consiste em cerca de 9 mil trailers de filmes pertencentes a 22 rótulos/gêneros distintos. Para fins de verificação, é utilizado um conjunto de validação (subparte) do LMTD-9 [2] que inclui apenas os trailers de Hollywood lançados após 1980 e trailers específicos da nossa lista de gêneros. O conjunto de dados contém trailers de comprimentos variados com qualidade de vídeo e proporções de aspecto diferentes.
Nesta seção, discutiremos nossos experimentos com diferentes variações de estrutura. Experimentamos 3 estruturas diferentes baseadas em modalidades separadas e recursos pré-fundidos.
MS (Análise de frames de vídeo): Modelo considerando apenas características baseadas em situação de frames de vídeo.
MD (análise de diálogos-metadados): Modelo considerando diálogos de áudio e descrições de metadados como recursos.
MSD (Análise multimodal): Modelo considerando recursos baseados em situação de quadros de vídeo, diálogos de áudio e descrições de metadados como recursos.
A arquitetura proposta na Seção 4.2.3 com recursos pré-fundidos é utilizada para MSD. No entanto, o corpus de entrada é ligeiramente modificado. O corpus definido na Secção 4.4 é utilizado para MSD. A precisão, a recuperação e a pontuação F1 para MSD em LMTD-9 e EMTD são apresentadas na Tabela 5. No entanto, a comparação da AU (PRC) de MSD com MS e MD é discutida na próxima seção.
Alguma variação pode ser vista entre a performance de diferentes gêneros. A maioria dos trailers pertencentes aos principais gêneros está sendo classificada com precisão (com pontuação F1 igual ou superior a 0,84), o que mostra que o modelo proposto tem um bom desempenho. O gênero de ação foi o gênero de melhor desempenho entre cinco, com uma pontuação F1 de 0,88 e 0,89 no EMTD e LMTD-9, respectivamente. O gênero romance foi visto como o gênero com menor desempenho entre todos os gêneros em termos de pontuação F1. Observa-se que muitos trailers de gêneros de romance estão sendo classificados erroneamente como comédia, pois ambos os gêneros são dominados por palavras semelhantes, como feliz, sorriso, risada, etc.
A UA (PRC), ou seja, a área sob a curva de recuperação de precisão, é calculada para comparar nossos resultados de classificação, pois estamos lidando com o problema de classificação multi-rótulo. A medida AU (PRC) ajuda a comparar o desempenho real do nosso modelo, compensando o efeito de ruído devido ao desequilíbrio de classe no conjunto de dados multi-rótulo. As curvas AU (PRC) são criadas para todos os 3 modelos em ambos os conjuntos de dados, conforme ilustrado na Figura 5, Figura 6 e Figura 7. No conjunto de validação do EMTD, encontramos valores de AU (PRC) quase semelhantes 92%, 91%, 88% em MSD, MD e MS, respectivamente. No entanto, descobrimos que nosso MSD fornece valores de 82% de UA (PRC) no conjunto de dados LMTD9, que é maior do que os outros dois modelos, ou seja, 72% e 80% de UA (PRC) de MD e MS, respectivamente, como na Tabela 6.
No entanto, para comparação geral com alguns outros modelos que experimentamos em nosso estudo, mencionamos seus resultados na Tabela 6. Para escolher a melhor arquitetura, os modelos são comparados em termos de UA (PRC) em ambos os conjuntos de dados de validação. A implementação do conjunto de dados do modelo de recursos EMTD LMTD-9 Diálogo (MD) E-Bi LSTM 0,87 0,66 ECnet 0,91 0,72 Situação (MS) ECnet 0,86 0,75 TFAnet 0,88 0,80 Recursos fundidos (MSD) ECnet 0,92 0,82 todos os modelos mencionados nos ajudam a decidir o melhor modelo para os recursos fundidos. Embora o MD tenha valores de AU (PRC) comparáveis com o MSD no EMTD, mas no LMTD-9, o MSD superou o MD. Semelhante é o caso do MS no LMTD-9. Embora o MSD tenha um bom desempenho simultâneo em ambos os conjuntos de dados, o que não é verdade no caso de MS e MD individualmente. Portanto, pela validação cruzada de conjuntos de dados, o MSD prova ser mais robusto. Concluímos que o MSD proposto é o modelo com melhor desempenho.
Nesta seção, validamos o desempenho do nosso modelo proposto realizando a comparação do estado da arte com as abordagens anteriores para classificação de gênero de filme usando a métrica AU (PRC) para cada gênero separadamente, conforme ilustrado na Tabela 7. Todos os resultados mencionados na Tabela 7 são mostrados com até duas casas decimais e são baseados no conjunto de dados padrão LMTD-9, exceto para Fish et. al. [22], cujos resultados são baseados no conjunto de dados MMX trailer-20. Não considera o gênero romance em seu estudo. Porém, para os demais gêneros, a diferença nos valores de UA (PRC) de Fish et. al [22] e MSD é digno de nota. MSD supera em 20% em média. A classificação baseada em recursos visuais de baixo nível [23] é baseada em 24 recursos visuais de baixo nível, SAS-MC-v2 [24] usa apenas a sinopse para classificação de trailers, Fish et. al. [22] e CTT-MMC-TN [25] são baseados em características de alto nível. Comparando com abordagens de recursos de baixo nível [23], [24], o MSD supera em média 10%, e comparando com abordagens que usam recursos de alto nível [22], [25], ele supera em 8% em média para cada gênero. Observa-se também que o gênero comédia teve um bom desempenho na maioria das obras em comparação com os outros quatro gêneros, enquanto a ficção científica tem valores AU (PRC) relativamente mais baixos. Isto pode ser devido à indisponibilidade de uma distinção adequada no género de ficção científica, uma vez que as suas características se sobrepõem a alguns outros géneros semelhantes (como a acção).
O estudo comparativo demonstra que o modelo proposto é robusto, pois supera as abordagens existentes e apresenta excelentes resultados. O melhor desempenho se deve ao fato de a arquitetura proposta incluir características cognitivas e afetivas, ajudando o modelo a aprender características substanciais de cada gênero, prevendo assim os gêneros com mais precisão.
Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.