paint-brush
Perfil multinível de redes profundas baseadas em situação e diálogo: histórico e trabalho relacionadopor@kinetograph

Perfil multinível de redes profundas baseadas em situação e diálogo: histórico e trabalho relacionado

Muito longo; Para ler

Neste artigo, os pesquisadores propõem uma estrutura multimodal para classificação de gêneros de filmes, utilizando recursos de situação, diálogo e metadados.
featured image - Perfil multinível de redes profundas baseadas em situação e diálogo: histórico e trabalho relacionado
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Dinesh Kumar Vishwakarma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia;

(2) Mayank Jindal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia

(3) Ayush Mittal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia

(4) Aditya Sharma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia.

Tabela de links

2. Antecedentes e Trabalhos Relacionados

Esta seção discute as metodologias anteriores para classificação de gêneros cinematográficos e as motivações por trás de nosso estudo. O conteúdo de vídeo é principalmente particionado em (1) Quadros de vídeo (imagens) e (2) Áudio (fala {diálogos} + não fala {vocais}). Para analisar o conteúdo do vídeo, vários estudos foram realizados no passado, focando principalmente nos níveis cognitivo [3]–[7] ou afetivo [8] individualmente. Para um estudo mais eficaz, ambos os níveis precisam ser levados em consideração para um melhor desempenho em uma tarefa de classificação de gênero.


Nos estudos anteriores, muitas abordagens baseadas na cognição foram propostas com base em recursos de baixo nível, incluindo distúrbios visuais, duração média da tomada, mudança gradual na intensidade da luz nos quadros de vídeo e picos na forma de onda de áudio [3], para capturar componentes da cena. [4]. Outros recursos usados para classificação cognitiva incluem cores RGB em quadros [6], tomadas de filme [7], duração da tomada [9], tipo de fundo em cenas (escuro/não escuro) [6], etc. proposto apenas para análise afetiva [8].


Um filme pode ter vários gêneros, representando muitas informações para os espectadores, servindo também como uma tarefa de recomendar um filme ao espectador. Jain et al. [5] usaram 4 recursos de vídeo (duração da cena, movimento, predominância de cores, tonalidade de iluminação) e 5 recursos de áudio para classificar clipes de filme usando apenas 200 amostras de treinamento. Eles usaram clipes de filmes completos para prever gêneros. No entanto, o estudo usa apenas 200 amostras de treinamento para treinar seu modelo. Conseqüentemente, a precisão relatada por eles pode ser devida ao ajuste excessivo. Além disso, o estudo concentrou-se apenas na classificação de rótulo único. Huang et al. [4] propuseram o algoritmo Self Adaptive Harmony Search com 7 SVMs empilhados que usavam recursos de áudio e visuais (cerca de 277 recursos no total) em um conjunto de dados de 223 tamanhos. Ertugrul et al. [10] usaram recursos de baixo nível, incluindo o enredo dos filmes, dividindo o enredo em frases e classificando as frases em gêneros e considerando o gênero final como aquele com ocorrência máxima. Pais et al. [11] propuseram fundir recursos de imagem-texto, baseando-se em algumas palavras importantes da sinopse geral e realizaram classificação de gênero de filme com base nesses recursos. O modelo foi testado em um conjunto de 107 trailers de filmes. Shahin et al. [12] usaram enredos e citações de filmes e propuseram redes de atenção hierárquica para classificar gêneros. Da mesma forma, Kumar et al. [13] propuseram o uso de enredos de filmes para classificar gêneros usando vetorização hash, concentrando-se na redução da complexidade geral do tempo. Os estudos mencionados acima baseiam-se em recursos de baixo nível e não capturam nenhum recurso de alto nível dos trailers de filmes, portanto, não podem ser confiáveis para um sistema de reconhecimento de bom nível.


A partir de estudos mais recentes, muitos pesquisadores usaram redes profundas para tarefas de classificação de gêneros cinematográficos. Shambharkar et al. [14] propuseram uma arquitetura 3D baseada em CNN de rótulo único para aproveitar os recursos espaciais e temporais. Embora as características espaciais e temporais sejam capturadas neste, o modelo não é robusto devido à classificação de rótulo único. Alguns pesquisadores trabalharam em pôsteres de filmes para classificar os gêneros cinematográficos. Chu et al. [15] formularam uma rede neural profunda para facilitar a detecção de objetos e aparências visuais. Embora o trabalho tenha capturado muitas informações dos pôsteres, o pôster em si não é suficiente para descrever completamente um filme. Simões et al. [16] propuseram um CNN-Motion que incluía histogramas de cena fornecidos pelo algoritmo de agrupamento não supervisionado, previsões de gênero ponderadas para cada trailer, juntamente com alguns recursos de vídeo de baixo nível. Isso forneceu um grupo importante de recursos de um vídeo, mas faltou alguns recursos afetivos e cognitivos para classificar o gênero.


Assim, a partir da literatura anterior, é evidente que informações importantes devem ser extraídas dos trailers de vídeo para estudo cognitivo e afetivo. Portanto, nossa motivação por trás do trabalho é criar uma abordagem baseada em ambos os níveis de análise de conteúdo de vídeo como em [1]. Acreditamos que a arquitetura proposta e o modelo são novos e robustos e podem ser usados no futuro para diversas perspectivas de pesquisa.


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.