125 leituras

Perfil multinível de redes profundas baseadas em situação e diálogo: metodologia proposta

por Kinetograph: The Video Editing Technology Publication7m2024/05/28

Muito longo; Para ler

Neste artigo, os pesquisadores propõem uma estrutura multimodal para classificação de gêneros cinematográficos, utilizando recursos de situação, diálogo e metadados.

featured image - Perfil multinível de redes profundas baseadas em situação e diálogo: metodologia proposta

Autores:

(1) Dinesh Kumar Vishwakarma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia;

(2) Mayank Jindal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia

(3) Ayush Mittal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia

(4) Aditya Sharma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia.

Tabela de links

4. Metodologia Proposta

4.1. Descrições

O enredo/descrições do filme são um recurso importante para descrever um filme. Na maioria dos casos, o enredo mencionado para um filme que está sendo lançado é muito curto ou não é mencionado em alguns casos. Considerando isso, optamos por utilizar as descrições concatenadas com os diálogos extraídos dos trailers dos filmes para finalmente prever o gênero do filme, conforme discutido detalhadamente na Seção 4.2. As descrições são obtidas no site do IMDB como metadados, conforme já mencionado na Seção 3.

4.2. Diálogo

Nesta seção, propomos uma arquitetura para processar uma lista de diálogos do áudio do trailer (descrição/enredo concatenado aos diálogos) para prever gêneros de filmes. Etapas significativas para esse fluxo incluem: (1) Extrair a fala (diálogo) do trailer do filme e (2) Projetar um modelo para prever gêneros com base na fala e nos metadados.

4.2.1. Pré-processamento de dados

Os arquivos de áudio em formato (.wav) são extraídos dos trailers de vídeo (.mp4). A seguir, o arquivo de áudio é dividido em pequenos clipes de áudio e convertido em diálogos conforme proposto em [17]. Todo o texto é coletado para formar um corpus de entrada. A descrição/gráfico (se disponível nos metadados) também é mesclado neste corpus. Nosso estudo é direcionado apenas para trailers em inglês. Assim como as tramas dos filmes, o discurso extraído dos trailers pode funcionar como um complemento ao nosso corpus textual, o que pode auxiliar na melhor compreensão da relação entre o contexto do texto e o gênero do filme. Após a geração do corpus composto por um único registro para cada trailer em nossa fase de treinamento/teste foram realizadas as seguintes etapas de pré-processamento: conversão de todo o texto para minúsculas, eliminação de dígitos, pontuações, stop-words e web-links. O texto obtido acima é usado para alimentar como entrada para o modelo/modelo pré-treinado para treinamento/teste.

4.2.2. Extração de recursos (diálogo)

4.2.3. ECnet (Incorporação – Rede de Convolução)

Para construir uma arquitetura de detecção de gênero baseada na cognição, os recursos cruciais do trailer na forma de um corpus de texto precisam ser aprendidos por um modelo. Isso pode ser conseguido usando uma combinação de camadas de incorporação e CNN (Rede Neural de Convolução). As camadas da rede de classificação multirótulo são mostradas na Tabela 3. A incorporação é uma das técnicas populares usadas em problemas de PNL para converter palavras em representação matemática na forma de vetores numéricos.

Antes de realmente enviar dados para a arquitetura, o vocabulário precisa ser projetado e o tamanho de um corpus para cada ponto de dados precisa ser corrigido. Um vocabulário de 10.395 palavras é projetado e o comprimento máximo do número de palavras em cada corpus é definido como o comprimento da frase mais longa em nosso corpus de treinamento, que é 330 em nosso caso. Se o número de palavras em um corpus for menor que o comprimento máximo, o corpus será preenchido com 0s. Para um trailer de filme de 2 a 3 minutos, 330 palavras são suficientes, pois em algumas partes do trailer pode não haver fala (apenas os vocais podem estar presentes).

Agora, para cada corpus nos dados de entrada, temos uma entrada de formato (330,) (330 é o número de palavras em cada ponto de dados), que é alimentada na primeira camada de nossa arquitetura como na Fig. , camada de incorporação. A camada de incorporação fornece uma saída de dimensão (330, 64), já que o comprimento de incorporação para cada palavra é considerado 64 em nossa arquitetura proposta.

Após a camada de incorporação, uma camada de convolução 1-D é alimentada com a saída da camada de incorporação. Novamente, a camada de convolução fornece um formato de saída de (330, 64,). Para obter a mesma saída, aplicamos o preenchimento uniformemente à entrada da camada de convolução. Em seguida, uma camada de pooling máximo é usada para reduzir a dimensão dos dados de (330, 64,) para (165, 64,). A arquitetura é seguida por uma camada achatada para transformar os dados bidimensionais em dados unidimensionais, para enviar ainda mais a saída para uma camada densa.

Conforme representado na Tabela 3, a camada achatada fornece uma saída de formato (10560,) que é alimentada para uma camada densa como entrada e fornecendo um formato de saída de (32,). Finalmente, a camada densa final é aplicada à arquitetura retornando a forma de saída de (5,) denotando nossos cinco gêneros. Na camada densa final de nossa arquitetura, usamos “sigmóide” como uma função de ativação mais adequada para nosso problema de classificação multi-rótulo.

4.3. Situação

Esta seção inclui o trabalho que propomos sobre recursos visuais de trailers de filmes. As etapas principais para esse fluxo incluem: (1) buscar quadros de vídeo do trailer, (2) extrair situações dos quadros e (3) construir arquitetura para finalmente classificar os trailers em gêneros.

Um novo modelo de análise de vídeo baseado em situação é proposto, extraindo as situações e eventos com base em cada quadro extraído do vídeo para características visuais. Assim, é criado um corpus para treinar/testar o modelo reunindo-os.

Até onde sabemos, estamos propondo uma nova estrutura, fundindo a análise de situação, evento e diálogo para classificação de gênero. Mais detalhes sobre a estrutura são descritos nas seções abaixo.

4.3.1. Extração de quadros de vídeo

Após várias experiências usando algum subconjunto de trailers de filmes, descobriu-se que tirar cada 10𝑡ℎ do quadro é benéfico para evitar redundância nos quadros (quadros consecutivos de um vídeo parecem ser semelhantes). Assim, após descartar os quadros redundantes, os quadros de vídeo finais considerados podem ser expressos como Eq. (9):

Nas seções subsequentes, consideraremos esses quadros para cada trailer.

4.3.2. Extração de recursos (situação)

E a probabilidade de que a situação S pertença a uma imagem I pode ser denotada como na Eq. (11).

𝛼 denota o parâmetro do nosso neural; rede. Agora podemos definir os papéis semânticos em uma imagem em uma ordem específica. Assim, ainda mais, a Eq. (12) ser reduzido à Eq. (13).

Eq. (13) pode ser ainda mais simplificado como Eq. (14).

Para uma determinada imagem/quadro específico, a situação com valor máximo de probabilidade definida na Eq. (14) será considerado para essa imagem.

Agora a tarefa é convertida em uma tarefa de classificação de texto para a qual propomos a arquitetura do modelo conforme discutido nas próximas seções. Antes de prosseguir para a próxima etapa, é realizado o pré-processamento do texto: convertendo todo o texto para minúsculas, eliminando dígitos, pontuações e stop-words, conforme mencionado na Seção 4.2.1. Essas mesmas etapas são executadas no procedimento de teste para prever o gênero do trailer do filme.

4.3.3. TFAnet (Rede Neural Artificial de Frequência de Termo)

Após extrair características visuais, é necessária uma arquitetura robusta para classificar os gêneros finais dos trailers. Este modelo é diferente do modelo que propusemos no fluxo de diálogo. Aqui, a TFAnet (Rede Neural Artificial de Frequência de Termo) é proposta consistindo em uma rede profunda de camadas densas e de abandono, conforme representado na Fig.

Antes de chegar à arquitetura proposta, discutiremos a representação de texto usando TF-IDF em [19]. Para esta arquitetura, propõe-se a utilização na contagem de palavras no corpus de cada ponto de dados. Assim, utilizamos a contagem de palavras do corpus como recurso para classificação dos gêneros dos trailers de filmes. Para incluir um grande número de palavras como recursos em nosso conjunto de vocabulário, trailers de uma grande variedade de datas de lançamento são usados em nosso EMTD para obter um enorme corpus disponível conosco enquanto treinamos o modelo. Uma combinação de unigramas, bigramas e trigramas é usada em nosso corpus, pois os recursos e o algoritmo TF-IDF (termo frequência-inversa de frequência de documento) representam nosso texto em uma forma numérica. O total de recursos de n-gramas obtidos é de cerca de 34.684. Agora nossos recursos baseados em texto são transformados em forma matemática, então a seguir (rede neural artificial) é treinada para classificar os gêneros do trailer.

A arquitetura da TFAnet (Rede Neural Artificial de Frequência de Termo) é mostrada na Tabela 4. O formato de entrada, conforme discutido acima, é (34684,). Essa entrada é dada a uma camada densa, que fornece uma saída no formato (64,). Em seguida, uma camada de dropout é aplicada para reduzir o sobreajuste com uma taxa de 0,4. Novamente, uma camada densa é aplicada e obtemos uma saída de formato (32,), seguida por uma camada dropout com taxa de 0,2. Por fim, é aplicada uma camada densa, que dá uma saída de forma (5,) para finalmente prever cinco gêneros, com sigmóide como função de ativação.