paint-brush
Perfil multinível de redes profundas baseadas em situação e diálogo: conjunto de dados EMTDpor@kinetograph

Perfil multinível de redes profundas baseadas em situação e diálogo: conjunto de dados EMTD

Muito longo; Para ler

Neste artigo, os pesquisadores propõem uma estrutura multimodal para classificação de gêneros de filmes, utilizando recursos de situação, diálogo e metadados.
featured image - Perfil multinível de redes profundas baseadas em situação e diálogo: conjunto de dados EMTD
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Dinesh Kumar Vishwakarma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia;

(2) Mayank Jindal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia

(3) Ayush Mittal, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia

(4) Aditya Sharma, Laboratório de Pesquisa Biométrica, Departamento de Tecnologia da Informação, Universidade Tecnológica de Delhi, Delhi, Índia.

Tabela de links

3. Conjunto de dados EMTD

Os conjuntos de dados da literatura anterior carecem da composição uniforme dos gêneros cinematográficos. Portanto, propomos um EMTD (English Movie Trailer Dataset) que consiste em cerca de 2.000 trailers exclusivos de filmes de Hollywood baixados do IMDB1. EMTD contém 2.000 trailers exclusivos de 5 gêneros, a saber: ação, comédia, terror, romance, ficção científica. O conjunto de dados é extraído do IMDB pelo procedimento de web scrapping da seguinte forma: (1) buscar a lista de títulos de filmes disponíveis no IMDB (com pelo menos 1 gênero comum ao mencionado acima), (2) extrair metadados correspondentes a cada título de filme, incluindo o trailer link para download e (3) baixe os trailers (.mp4) correspondentes ao link em uma pasta e liste todas as informações/metadados sobre o filme, incluindo nome do trailer, descrições, enredo, palavras-chave e gêneros na forma de um arquivo CSV. Neste trabalho, o conjunto de dados é particionado em conjunto de trens (1700 reboques), conjunto de validação (300 reboques) conforme mostrado na Tabela 1.


O estudo é realizado com os gêneros acima apenas porque esses gêneros são observados principalmente nos filmes. Também queremos explorar primeiro o desempenho da nossa arquitetura num pequeno conjunto de géneros, por isso optamos por escolher apenas 5 géneros em vez de optarmos por um amplo conjunto de géneros.


Tabela 1: Composição do conjunto de dados


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.