Autores:
(1) Dinesh Kumar Vishwakarma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia;
(2) Mayank Jindal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia
(3) Ayush Mittal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia
(4) Aditya Sharma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia.
A classificação automatizada de gêneros de filmes emergiu como uma área ativa e essencial de pesquisa e exploração. Os trailers de filmes de curta duração fornecem informações úteis sobre o filme, pois o conteúdo do vídeo consiste em recursos de nível cognitivo e afetivo. As abordagens anteriores concentravam-se na análise de conteúdo cognitivo ou afetivo. Neste artigo, propomos uma nova multimodalidade: estrutura de classificação de gênero de filme baseada em situação, diálogo e metadados que leva em consideração tanto a cognição quanto os recursos baseados no afeto. Uma estrutura baseada na fusão de pré-recursos que leva em consideração: recursos baseados em situação de um instantâneo regular de um trailer que inclui substantivos e verbos, fornecendo o mapeamento útil baseado em afeto com os gêneros correspondentes, recurso baseado em diálogo (fala) de áudio, metadados que juntos fornecem informações relevantes para análise de vídeo cognitiva e baseada em afeto. Também desenvolvemos o conjunto de dados de trailers de filmes em inglês (EMTD), que contém 2.000 trailers de filmes de Hollywood pertencentes a cinco gêneros populares: ação, romance, comédia, terror e ficção científica, e realizamos validação cruzada no conjunto de dados padrão LMTD-9 para validação. o quadro proposto. Os resultados demonstram que a metodologia proposta para classificação de gêneros de filmes teve um desempenho excelente, conforme representado pelas pontuações F1, precisão, recall e área sob as curvas de recall de precisão.
Palavras-chave: Classificação de gênero de filmes, Rede Neural Convolucional, conjunto de dados de trailers de filmes em inglês, análise de dados multimodais.
Os filmes são uma grande fonte de diversão para o público, impactando a sociedade de diversas maneiras. A identificação manual do gênero de um filme pode variar de acordo com o gosto de cada indivíduo. Conseqüentemente, a previsão automatizada de gêneros de filmes é uma área ativa de pesquisa e exploração. Os trailers de filmes estão se tornando uma fonte útil para prever os gêneros do filme. Eles fornecem informações úteis sobre o filme em um período de tempo muito curto. Os trailers de filmes consistem em dois tipos de conteúdo: conteúdo cognitivo e conteúdo afetivo.
O conteúdo cognitivo descreve a composição dos eventos, objetos e pessoas em um determinado quadro de vídeo do trailer do filme, enquanto o conteúdo afetivo descreve os tipos de características psicológicas, como sentimentos ou emoções, em um trailer do filme [1]. Exemplos de conteúdo cognitivo incluem um playground, um prédio, um homem, um cachorro, etc. Exemplos de conteúdo afetivo são sentimentos/emoções como felicidade, tristeza, raiva, etc. os gêneros do filme.
Neste artigo, propomos uma nova situação multimodal, diálogo e estrutura de classificação de gêneros de filmes baseada em metadados, que visa prever gêneros de filmes usando conteúdo de vídeo, áudio e metadados (enredo/descrição) de trailers de filmes. Nossa nova estrutura se concentra em extrair características cognitivas e afetivas do trailer do filme. Para isso, uma frase (gerada a partir de situações) composta por substantivos e verbos relevantes é extraída do quadro do vídeo. Os substantivos fornecem informações relevantes sobre o conteúdo cognitivo dos trailers, e os verbos fornecem um mapeamento útil baseado em afetos com os gêneros correspondentes. Por exemplo, verbos como rir, rir, fazer cócegas, etc. fornecem um mapeamento baseado no afeto com o gênero “comédia”. Os verbos como atacar, espancar, bater, etc. fornecem um mapeamento baseado no afeto com o gênero 'ação'. Juntamente com as situações, o diálogo e os recursos baseados em metadados contribuem adicionalmente para o conteúdo cognitivo e afetivo, pois incluem descrições de eventos (conteúdo cognitivo) e características psicológicas (conteúdo afetivo).
Assim como no processo padrão de aprendizado de máquina, o trabalho é realizado em múltiplas fases. A 1ª fase é a fase de geração do conjunto de dados, onde geramos o EMTD, que contém 2.000 trailers de filmes de Hollywood pertencentes a 5 gêneros populares: Ação, Romance, Comédia, Terror e Ficção Científica. A 2ª fase envolve o pré-processamento dos trailers de vídeo onde todos os frames repetidos são removidos e redimensionados. As frases contendo substantivos e verbos importantes são extraídas dos quadros úteis. Também preparamos as transcrições de áudio dos trailers dos filmes para obter os diálogos dos trailers. Na 3ª fase, projetamos e treinamos a arquitetura proposta, que extrai e aprende as características importantes dos trailers. Finalmente, na 4ª fase, o desempenho da nossa arquitetura proposta é avaliado usando a métrica Área sob a Curva PrecisionRecall (AU (PRC)). A seguir estão as contribuições significativas do nosso trabalho:
Propomos um romance EMTD (English Movie Trailer Dataset) contendo trailers de filmes de Hollywood em língua inglesa pertencentes a cinco gêneros populares e distintos: Ação, Romance, Comédia, Terror e Ficção Científica.
Este trabalho propõe uma nova abordagem para prever gêneros de filmes usando recursos cognitivos e baseados em afetos. Nenhuma literatura anterior se concentrou em uma combinação de diálogo, situação e recursos baseados em metadados extraídos dos trailers de filmes, até onde sabemos. Assim, realizamos: análise baseada em situação usando substantivos e verbos, análise baseada em diálogo usando reconhecimento de fala e análise baseada em metadados com metadados disponíveis nos trailers.
A arquitetura proposta também é avaliada realizando testes cruzados de conjuntos de dados no conjunto de dados padrão LMTD-9 [2]. Os resultados mostram que a arquitetura proposta teve um desempenho excelente e demonstra o desempenho superior do framework.
A parte restante do artigo está organizada da seguinte forma: Na Seção 2, a literatura anterior sobre classificação de gêneros cinematográficos é revisada e a motivação por trás do trabalho proposto é destacada. Na Secção 3, discutimos a EMTD proposta. Na Seção 4, fornecemos uma descrição detalhada da arquitetura proposta. Na Seção 5, avaliamos o desempenho da estrutura proposta e a validamos em dois conjuntos de dados diferentes. O artigo é concluído na Seção 6.
Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.